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FOREWORD 


移动 互联 网 、 电 子 商务 及 社交 媒体 的 快速 发 展 使 得 人 类 需要 面临 的 数据 量 呈 指数 增长 。 
根据 IDC) BF FH) (Digital Universe ) 研 究 报 告 显示 ,2020 年 全 球 新 建 和 复制 的 信息 量 将 
超过 40ZB, 是 当前 的 10 倍 ;而 中 国 的 数据 量 则 会 在 2020 年 超过 8ZB, 比 当前 增长 20 倍 。 
数据 量 的 飞速 增长 带 来 了 大 数据 技术 的 发 展 和 服务 市 场 的 繁荣 ,同时 在 学 术 界 ,关于 大 数据 
的 科研 工作 如 火 如 茶 , 越 来 越 多 的 学 者 投入 到 大 数据 云 计算 研究 之 中 ,相关 文献 呈 指 数 
增长 。 

不 断 积 累 的 大 数据 包含 着 很 多 在 小 数据 量 时 不 具备 的 深度 知识 和 价值 , 带 来 巨大 的 技 
术 创 新 与 商业 机 遇 。 大 数据 分 析 挖 掘 将 为 行业 /企业 带 来 巨大 的 商业 价值 ,实现 各 种 高 附加 
值 的 增值 服务 ,进一步 提升 行业 /企业 的 经 济 效益 和 社会 效益 。 谈 到 大 数据 ,不 可 避免 地 要 
提 及 云 计 算 , 云 计算 结合 大 数据 ,这 是 时 代 发 展 的 必然 趋势 。 有 人 把 云 计 算 和 大 数据 比 作 是 
一 个 硬币 的 两 面 。 云 计算 是 大 数据 的 IT 基础 和 平台 ,而 大 数据 是 云 计 算 范 畴 内 最 重要 、 最 
关键 的 应 用 。 大 数据 必然 架构 在 云 上 才能 高 效 运 作 并 对 外 服务 ,两 者 之 间 缺 一 不 可 , 相 辅 相 
成 ,相互 促进 。 

大 数据 云 计算 正在 快速 发 展 ,相关 技术 热点 也 呈现 百花 齐 放 的 局 面 ,业界 各 大 厂商 纷纷 
制定 相应 的 战略 ,新 的 概念 、 观 点 和 产品 不 断 涌现 。 大 数据 和 云 计算 作为 新 一 代 IT 技术 变 
革 的 核心 , 必 将 成 为 广大 学 生 、 科 技工 作者 构建 自身 IT 核心 竞争 能 力 的 战略 机 遇 。 因 而 作 
为 高 层次 IT 人 才 , 学 习 大 数据 和 云 计 算 知 识 ,掌握 相关 技术 迫在眉睫。 然而 ,大 数据 和 云 
计算 密切 相关 ,当前 国内 外 相关 的 资料 还 相当 少 , 缺 乏 比较 系统 完整 的 论述 。 目 前 在 我 国 急 
需要 一 本 教材 能 够 全 面 而 又 系统 地 讲解 大 数据 和 云 计算 ,普及 大 数据 和 云 计算 知识 ,推广 云 
计算 中 大 数据 的 应 用 ,解决 大 数据 架构 的 实际 问题 ,进而 培养 高 层次 大 数据 人 才 。 

在 这 样 的 背景 下 ,作者 着 眼 于 大 数据 和 云 计算 有 机 结合 的 视角 ,从 理论 探索 和 应 用 实践 
两 个 方面 来 撰写 本 书 ,适合 对 大 数据 和 云 计算 具有 初步 认识 并 希望 对 大 数据 云 架 构 进 行 深 
入 、 全 面 了 解 ,并 进行 实践 的 计算 机 信息 相关 专业 高 年 级 本 科 生 使 用 ,同时 本 书 也 将 成 为 广 
大 专业 工程 技术 人 员 不 可 缺少 的 参考 资料 。 本 书 分 为 5 篇 19 章 , 第 1 一 第 3 章 为 大 数据 云 
计算 概论 篇 ,第 4 一 第 10 章 为 大 数据 云 计算 关键 技术 篇 ,第 11 一 第 14 章 为 云 计算 架构 篇 ， 
第 15 和 第 16 章 为 大 数据 云 架构 实践 与 编程 篇 ,第 17 一 第 19 章 为 大 数据 安全 篇 。 

各 章 内 容 如 下 : 

第 1 章 大 数据 概述 ,介绍 大 数据 产生 背景 ,大 数据 发 展 历程 ,大 数据 概念 和 特点 ,大 数据 
应 用 场景 ,大 数据 研究 展望 等 内 容 。 

第 2 章 大 数据 和 云 计算 ,介绍 大 数据 和 云 计算 的 关系 , 云 计算 的 概念 , 云 计 算 的 由 来 , 云 
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计算 类 型 , 云 计 算 的 商业 模式 。 

第 3 章 大 数据 应 用 价值 ,介绍 大 数据 的 应 用 价值 ,数据 的 生成 .分 析 、 存 储 、 分 享 、 检 索 、 
消费 都 在 大 数据 的 生态 系统 中 进行 ,应 用 大 数据 技术 ,让 数据 参与 决策 ,发 掘 找到 大 数据 真 
正 有 效 的 价值 ,进而 改变 人 们 的 未 来 ,革新 生活 模式 ,产生 社会 变革 。 

第 4 章 分 布 式 计算 框架 ,介绍 构成 大 数据 云 计算 的 主要 关键 技术 一 一 分 布 式 计算 技术 ， 
以 及 Hadoop Spark „Flink 等 分 布 式 大 数据 计算 框架 。 

第 5 % NoSQL 数据 库 , 介 绍 NoSQL(NoSQL = Not Only SQL) ,这 是 一 项 全 新 的 数 
据 库 技术 ,然后 引出 分 布 式 数 据 库 的 重要 理论 CAP, 最 后 介绍 HBase。 

第 6 章 机 器 学 习 , 介 绍 机 器 学 习 的 概念 、 分 类 和 发 展 历程 ,简要 介绍 多 种 机 器 学 习 算法 。 

第 7 章 虚 拟 化 ,介绍 构成 云 计算 的 主要 关键 技术 一 一 虚拟 技术 , 它 整 合 多 种 计算 资源 ， 
实现 架构 动态 化 ,并 达到 集中 管理 和 动态 使 用 物理 资源 及 虚拟 资源 , 以 提高 系统 结构 的 弹性 
和 灵活 性 ,降低 成 本 、 改 进 服务 减少 管 理 风险 等 目标 。 

第 8 章 Docker 容器 ,介绍 Docker 容器 相关 的 概念 ,优势 、 由 来 和 实现 原理 。 

第 9 章 Web 2.0, 介 绍 构成 云 计算 主要 的 关键 技术 Web 2.0, 是 因特网 的 一 次 理念 和 思 
想 体系 的 升级 换代 ,由 原来 自 上 而 下 的 由 少数 资源 控制 者 集中 控制 主导 的 因特网 体系 转变 
为 自 下 而 上 的 由 广大 用 户 集体 智慧 和 力量 主导 的 因特网 体系 。 

第 10 章 绿色 数据 中 心 , 介 绍 构成 云 计算 的 主要 关键 技术 一 一 绿色 数据 中 心 ,是 指数 据 
机 房 中 的 IT 系统、 机械、 照明 和 电气 等 能 取得 最 大 化 的 能 源 效 率 和 最 小 化 的 环境 影响 。 

第 11 章 基 础 设施 即 服 务 , 介 绍 云 计算 环境 中 的 IaaS(Infrastructure as a Service) ,分 析 
Amazon 公司 的 IaaS 案例 。 

第 12 章平 台 即 服务 ,介绍 云 计算 环境 中 的 PaaS(Platform as a Service) ,分 析 Google 
App Engine 和 Windows Azure Platform 的 PaaS 案例 。 

第 13 章 软 件 即 服务 ,介绍 云 计 算 环 境 中 的 SaaS (Software as a Service). 分 析 
Salesforce 的 SaaS 案例 。 

第 14 章 容 器 即 服务 .介绍 云 计 算 环 境 中 的 CaaS (Container as a Service), 阐述 
Kubernetes 和 Mesos 容器 调度 框架 ,分 析 互 联网 公司 SAE 容器 云 和 互联 网 公司 “去 哪 网 ” 
容器 云 。 

第 15 章 大 数据 云 架 构 搭 建 , 介 绍 分 布 式 的 Hadoop 与 Spark 集群 搭建 和 基于 Docker 
容器 的 Spark 大 数据 云 架 构 。 

第 16 章 Spark 大 数据 编程 ,介绍 使 用 Intellij IDEA 构建 Spark 开发 环境 ,并 列举 应 用 
Spark 计算 框架 的 WordCount 和 基于 Spark Streaming 股票 趋势 预测 案例 。 

第 17 章 大 数据 云 计 算 面 临 的 安全 威胁 ,介绍 大 数据 云 计 算 面 临 的 各 种 安全 威胁 ,阐述 
不 同行 业 大 数据 安全 的 需求 ,指出 大 数据 安全 应 该 包括 保障 大 数据 安全 和 大 数据 用 于 安全 
两 个 层面 的 含义 。 

第 18 章 保障 大 数据 安全 ,介绍 保障 大 数据 安全 的 相关 技术 和 相关 实践 。 

第 19 章 应 用 大 数据 保障 安全 ,介绍 应 用 大 数据 保障 安全 ,包括 大 数据 安全 检测 及 应 用 ， 
安全 大 数据 ,基于 大 数据 的 网 络 态势 感知 和 视频 监控 数据 的 安全 应 用 等 方面 内 容 。 

在 本 书 最 后 给 出 了 相关 的 参考 文献 ,有 兴趣 的 读者 可 以 进一步 阅读 。 此 外 ,关于 虚拟 化 
技术 ,作者 认为 普通 虚拟 化 和 容器 虚拟 化 是 完全 不 同 的 两 种 技术 ,大 数据 云 平台 多 采用 容器 








wo S T 
架构 ,所 以 Docker 容器 技术 作为 本 书 独立 一 章 , 并 且 在 第 4 篇 详细 介绍 基于 Docker 容器 的 
大 数据 云 架构 实践 。 在 方兴未艾 的 大 数据 云 计 算 时 代 , 统 一 的 标准 和 解决 方案 还 未 成 形 , 不 
同人 在 不 同 背 景 下 的 需求 和 观点 是 不 一 样 的 ,我 们 花费 一 年 多 的 时 间 努 力 编著 本 书 ,希望 能 
提供 比较 深入 的 见解 ,每 一 个 对 大 数据 和 云 计算 感 兴趣 的 读者 都 能 学 有 所 得 。 

更 进一步 ,大 数据 和 云 计算 是 新 一 代 IT 技术 变革 的 核心 ,是 中 国 建立 自己 IT 体系 的 
战略 机 遇 , 阅 读本 书 ,期 待 读 者 既 能 从 宏观 角度 更 全 面 地 认识 大 数据 云 架 构 , 同 时 也 能 从 微 
观 技术 实践 角度 接触 大 数据 和 云 计算 ,更 深入 地 学 习 和 掌握 大 数据 和 云 计 算 知 识 。 

本 书 适合 于 从 头 至 尾 阅读 ,也 可 以 按照 喜好 和 关注 点 挑选 独立 的 章节 阅读 。 和 希望 本 书 
的 介绍 能 加 深 读者 对 云 计算 的 理解 。 

由 于 编者 水 平 有 限 , 书 中 不 妥 之 处 在 所 难免 ,恳请 读者 批评 指正 。 


编 者 
2016 年 5 月 
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本 章 从 大 数据 产生 与 发 展 , 大 数据 的 概念 与 特征 ,大 数据 应 用 和 大 数据 研究 与 展望 4 个 
方面 对 大 数据 相关 知识 进行 介绍 。 


1.1 大 数据 产生 与 发 展 


1.1.1 大 数据 产生 背景 


随 着 因特网 技术 的 不 断 发 展 ,我 们 的 生活 越 来 越 多 地 受到 渗透 和 影响 ,加 之 云 计算 、 移 
动 网 络 \ 物 联网 技术 和 其 他 网 络 终 端 设 备 的 出 现 与 普及 ,这 也 使 得 工作 、 学 习 及 生活 当中 无 
处 不 在 的 数据 正 以 指数 级 速度 迅速 膨胀 。 毫 不 夸张 地 讲 , 我 们 所 生活 的 世界 正在 被 数据 所 
淹没 ,而 这 些 数据 经 过 精心 的 系统 整合 所 形成 的 大 数据 开始 展现 出 其 从 量变 到 质变 的 时 代 
价值 ,并 且 以 显 性 或 者 隐 性 的 方式 存在 于 世界 的 各 个 角落 ,通过 蝴蝶 效应 对 全 社会 的 各 个 领 
域 变革 产生 深远 的 影响 。 因 特 网 迎 来 了 大 数据 时 代 , 就 像 一 位 学 者 指出 的 “数据 是 信息 化 时 
代 的 “石油 ’, 大 数据 产业 将 成 为 未 来 新 的 经 济 增长 点 ”, 如 图 1-1 所 示 。 


1.1.2 大 数据 发 展 历程 


有 史 以 来 ,处 理 各 种 不 断 增长 的 数据 都 是 人 类 社会 的 难题 。 大 数据 的 现代 发 展 历史 最 
早 可 追溯 到 美国 统计 学 家 赫 尔 曼 。 霍 尔 瑞 斯 ,他 为 了 统计 1890 年 的 人 口 普 查 数据 ,发 明了 
一 台电 动机 器 来 对 卡片 进行 识别 ,该 机 器 用 一 年 的 时 间 就 完成 了 预计 8 年 的 工作 ,成 为 全 球 
进行 数据 处 理 的 新 起 点 。1943 年 ,“ 二 战 ”期 间 英国 为 了 快速 解 开 纳粹 设置 的 密码 ,组 织 工 
程 师 发 明 机 器 进行 大 规模 数据 处 理 ,并 采用 了 第 一 台 可 编程 的 电子 计算 机 实施 计算 工作 。 
1961 年 ,美国 国家 安全 局 (NSA) 首 先 应 用 计算 机 收集 信号 自动 处 理 情报 ,数字 化 处 理 模 拟 
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磁盘 信息 。1960 年 ,英国 计算 机 科学 家 蒂 姆 " 伯 纳 斯 " 李 设计 超 文本 系统 ,命名 为 万 维 网 ， 
使 用 因特网 在 世界 范围 内 实现 信息 共享 。1965 年 ,英特尔 的 创始 人 戈 登 . 摩尔 (Gordon 
Moore) 通 过 研究 计算 机 硬件 得 出 摩尔 定律 ,认为 同等 面积 的 芯片 每 过 一 到 两 年 就 可 容纳 两 
倍数 量 的 晶体 管 ,能 够 提高 两 倍 微 处 理 器 的 性 能 ,或 使 之 价格 下 降 一 半 。 近 50 年 ,信息 产品 
功能 日 趋 强大 ,各 种 设备 体积 变 小 ,存储 器 成 本 已 缩小 了 一 亿 多 倍 ,能 以 很 低 的 成 本 保存 海 
量 的 数据 。1988 年 ,美国 科学 家 马克 。 韦 泽 (Mark Weiser) 指 出 各 种 各 样 微型 计算 设备 能 
随时 随地 获取 并 处 理 数 据 , 被 称 为 普 适 计算 。 今 天 ,智能 手机 、 各 种 传感器 ,RFID( 射 频 识 
别 ) 标 签 、 可 穿戴 设备 等 实现 无 处 不 在 的 数据 自动 采集 ,为 大 数据 时 代 的 到 来 提供 了 物理 基 
础 。 美 国 研究 员 大 卫 ， 埃 尔 斯 沃 斯 和 迈克 尔 。 考 克 斯 在 1997 年 使 用 “大 数据 ”来 描述 超级 
计算 机 产生 超出 主 存储 器 的 海量 信息 ,这 些 数 据 集 甚至 突破 远程 磁盘 的 承载 能 力 。 
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云 计算 
图 1-1 伴随 移动 因特网 、 物 联网 、 云 计算 大 数据 时 代 来 临 


大 数据 时 代 的 技术 基础 集中 表现 在 数据 挖掘 ,通过 特定 的 算法 对 大 量 的 数据 进行 自动 
分 析 , 从 而 揭示 数据 当中 隐藏 的 规律 和 趋势 , 即 在 大 量 的 数据 当中 发 现 新 知识 ,为 决策 者 提 
供 参 考 。 现 在 的 信息 技术 已 经 可 以 把 一 件 产 品 的 流向 、 每 位 消费 者 的 情况 都 记录 下 来 ,再 通 
过 数据 挖掘 ,为 客户 量 身 定制 ,把 消费 和 服务 推 向 一 个 高 度 个 性 化 的 时 代 。 基 于 网 络 数据 的 
挖掘 ,不 需要 制定 问卷 ,也 不 需要 逐一 调查 ,成 本 低廉 。 更 重要 的 是 ,这 种 分 析 是 实时 的 , 没 
有 滞后 性 ,数据 挖掘 将 成 为 越 来 越 重 要 的 分 析 预 测 工具 ,抽样 技术 将 下 降 为 辅助 工具 。 数 据 
挖掘 的 优越 性 也 集中 反映 了 大 数据 " 量 大 、 多 源 、 实 时 ”三 个 特点 。 大 数据 的 前 沿 和 热点 是 机 
器 学 习 , 和 数据 挖掘 相 比 ,其 算法 并 不 是 固定 的 ,而 是 带 有 自 调适 参数 的 功能 。 也 就 是 说 , 它 
能 够 随 着 计算 挖掘 次 数 的 增多 ,不 断 自 动 调整 自己 算法 的 参数 ,使 挖掘 和 预测 的 结果 更 为 
准确 , 即 通过 给 机 器 " 喂 取 "大量 的 数据 ,让 机 器 可 以 像 人 一 样 通过 学 习 逐 步 自我 改善 .提高 ， 
这 也 是 该 技术 被 命名 为 “机 器 学 习 ” 的 原因 。 除 了 数据 挖掘 和 机 器 学 习 外 ,数据 的 分 析 、 使 用 
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技术 已 经 非常 成 熟 , 并 且 形 成 了 一 个 谱系 ,例如 数据 仓库 、 多 维 联机 分 析 处 理 (OLAP) 数据 
可 视 化 、 内 存 分 析 (In-memory Analytics) 都 是 其 体系 的 重要 组 成 部 分 。 

从 2004 年 起 ,以 脸 书 网 (Facebook) 、 推 特 CTwitter) 为 代表 的 社交 媒体 相继 问世 , 因 特 
网 开始 成 为 人 们 实时 互动 ,交流 协同 的 载体 ,全 世界 的 网 民 都 开始 成 为 数据 的 生产 者 ,引发 
了 人 类 历史 上 迄今 为 止 最 庞大 的 数据 爆炸 。 在 社交 媒体 上 产生 的 数据 大 多 是 非 结 构 化 数 
据 , 处 理 更 加 困难 。 乔 治 敦 大 学 的 教授 李 塔 鲁 (Kalev Leetaru) 考察 了 推 特 上 产生 的 数据 
量 ,他 做 出 估算 说 ,过 去 50 年 (纽约 时 报 ) 总 共产 生 了 30 亿 个 单词 的 信息 量 , 现 在 仅仅 一 天 
推 特 上 就 产生 了 80 亿 个 单词 的 信息 量 。 也 就 是 说 ,如 今 一 天 产生 的 数据 总 量 相当 于 《纽约 
时 报 汇 00 多 年 产生 的 数据 总 量 。 

回顾 半 个 多 世纪 人 类 信息 社会 的 历史 , 正 是 因为 1966 年 提出 的 摩尔 定律 ,晶体 管 越 做 
越 小 、 成 本 越 来 越 低 , 才 形 成 了 大 数据 现象 的 物理 基础 。1989 年 兴起 的 数据 挖掘 技术 是 让 
大 数据 产生 “大 价值 ”的 关键 ; 2004 年 出 现 的 社交 媒体 则 把 全 世界 每 个 人 都 变 成 了 潜在 的 
数据 生成 器 ,这 是 “大 容量 "形成 的 主要 原因 。 

2008 年 年 末 光 计算 社区 联盟 (Computing Community Consortium) ”提出 了 独特 的 详细 
报告 一 一 《大 数据 计算 : 在 商务 .科学 和 社会 领域 创建 革命 性 突破 》, 使 人 们 不 仅 考虑 机 器 的 
数据 处 理 ,而 且 在 更 广泛 的 领域 发 现 大 数据 的 社会 意义 ,找到 了 更 多 的 新 用 途 和 富有 创见 的 
新 见解 。 社 会 领域 的 计算 也 被 很 多 学 者 称 为 “社会 计算 (Social Computing)”。 社 会 领域 的 
计算 、 对 类 似 知识 和 关系 的 捕捉 ,不 仅 能 够 有 效 推动 社会 治理 ,还 能 产生 商业 价值 。 总 的 来 
看 ,从 根本 上 对 处 理 大 规模 信息 的 现实 需求 推动 了 大 数据 相关 技术 的 迅速 发 展 ,起 初 国家 安 
全 是 大 数据 技术 的 主要 推动 力 , 伴 随 着 超级 计算 机 的 发 明 , 大 数据 的 存储 和 处 理 技 术 , 以 及 
大 数据 分 析 算 法 的 研发 ,最 终 导致 大 数据 技术 在 教育 .金融 .医疗 等 许多 方面 开始 发 挥 巨大 
的 作用 。 


1.1.3 当前 大 数据 


“大 数据 ”一 词 真 正成 为 热点 是 在 2011 年 5 月 ,EMC 在 美国 拉 斯 维 加 斯 举办 第 11 届 
EMC World 大 会 ,以 云 计算 相遇 大 数据 (Cloud Meet Gig Data) 为 主题 着 重 展现 当今 两 个 最 
重要 的 技术 趋势 ,大 会 上 提出 了 “大 数据 ”概念 ,从 而 引发 了 工业 界 对 大 数据 的 广泛 关注 。 

全 球 知名 的 咨询 公司 麦肯锡 研究 院 (GMI) 则 于 2011 年 6 月 发 布 名 为 Big Data The 
Next Front for Innovation. Competition. and Productivity 的 研究 报告 ,详细 分 析 了 大 数据 
发 展 前 景 关 键 技术 和 应 用 领域 ,并 指出 大 数据 将 会 是 带动 未 来 生产 力 发 展 和 创新 及 消费 需 
求 的 指向 标 。 联 合 国 一 个 名 为 Global Pluse 的 倡议 项 目 发 布 了 名 为 Big data for 
development Challenges & opportunities 的 报告 ,阐述 大 数据 时 代 特 别 是 发 展 中 国家 在 面 
临 大 数据 带 来 的 机 遇 与 挑战 。 

大 数据 的 过 度 火 热 某 种 程度 上 意味 着 过 度 炒 作 , 然 而 通过 Gartner 发 布 的 技术 成 熟 度 
曲线 可 以 发 现 ,大 数据 已 由 概念 和 前 景 分 析 落 地 生根 一 一 进入 平稳 的 发 展 阶段 。 如 图 1-2 
所 示 ,Gartner 在 2013 年 预测 大 数据 已 进入 膨胀 期 ,将 在 未 来 2 一 5 年 进入 发 展 高 峰 期 。 当 
前 大 数据 的 技术 已 不 再 处 于 膨胀 期 和 高 峰 期 ,而 是 进入 了 平缓 的 发 展 阶段 。 成 熟 度 曲线 规 
律 : “虽然 大 数据 已 离开 高 峰 期 .但 大 家 对 大 数据 的 兴趣 依然 不 减 ,尽管 新 的 大 数据 处 理 技 
术 方 案 的 出 现 使 得 大 数据 热度 在 市 场 趋向 稳定 ,大 数据 还 有 5 一 10 年 才 会 达到 稳定 期 ”这 
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表明 大 数据 的 基本 概念 ,关键 技术 及 对 其 利用 已 得 到 业界 的 广泛 认可 ,对 大 数据 进行 处 理 分 
析 , 发 现 大 数据 中 蕴含 的 巨大 价值 成 为 业界 共识 。 
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图 1-2 技术 成 熟 度 曲 线 


1.2 大 数据 概念 与 特征 


1.2.1 大 数据 概念 


“大 数据 ?是 指 以 多 元 形式 存在 ,从 多 来 源 搜集 的 庞大 数据 组 ,往往 具有 实时 性 。 在 企业 
对 企业 销售 的 情况 下 .这些 数据 可 能 来 自 社交 网 络 、 电 子 商务 网 站 、 顾 客 来 访 记录 ,还 有 许多 
其 他 来 源 。 这 些 数据 并 非 公司 顾客 关系 管理 数据 库 的 常态 数据 组 。 

不 同 的 组 织 从 不 同 的 视角 给 大 数据 做 出 不 同 定义 。 百 度 百科 认为 大 数据 可 以 形象 地 概 
括 为 “由 于 体 量 的 巨大 和 结构 的 复杂 ,无 法 在 合理 时 间 内 将 所 涉及 的 资料 量 皂 取 ,管理 ,处理 
并 归纳 成 为 帮助 企业 经 营 决 策 更 积极 目的 的 资讯 "; Apache Hadoop 组 织 认为 大 数据 是 一 
组 规模 庞大 的 数据 集 ,其 体 量 甚至 大 到 传统 的 计算 方法 无 法 在 可 接受 的 时 间 范 围 内 获取 、 储 
存 、 处 理 它们 ; 全 球 最 具 权威 的 IT 研究 与 顾问 咨询 公司 高 德 纳 (Gartner) 认为 大 数据 是 一 
种 体 量 巨大 、 结 构 多 样 并 具有 高 增长 率 的 信息 资产 ,但 它 的 价值 只 有 通过 新 的 技术 与 模式 处 
理 后 方 能 彰显 出 来 ,形成 更 有 力 的 决策 依据 、 更 精确 的 洞察 能 力 ; 美国 国家 科学 基金 会 
(NSF) 面 对 越 来 越 复 杂 的 数据 管理 难题 和 数据 分 析 的 挑战 ,期 待 依托 新 的 商业 大 数据 技术 ， 
利用 计算 方法 来 完成 科学 计算 的 研究 ,他们 认为 大 数据 来 源 于 视 音频 软件 、 传 感 设备 ,符号 


第 1 章 大 数据 概述 





数据 、 电 子 商 务 、 因 特 网 点 击 及 各 类 终端 , 相 比 起 单一 渠道 所 产生 的 静态 数据 ,该 数据 集 更 加 
大 量 、 多 变 、 高 速 \, 多 元 ; 国内 学 者 李 国 杰 , 程 学 旗 认为 大 数据 是 通过 某 种 手段 感知 、 获 取 、 存 
储 、 控 掘 和 分 享 的 数据 集合 ,而 以 目前 现 有 的 数据 处 理 技术 、 信 息 处 理工 具 来 获得 上 述 数 据 
集合 的 成 本 是 相当 昂贵 的 ,这 既 指向 资金 成 本 ,也 指向 时 间 成 本 。 因 此 ,大 数据 不 仅仅 指 代 
其 静态 的 数据 ,更 指 代 其 背后 支持 该 数据 集 形成 的 所 有 技术 。 

利用 新 处 理 模 式 ,大 数据 具有 更 强 的 决策 力 和 洞察 力 ,能 够 优化 流程 ,实现 高 增长 率 , 处 
理 海 量 的 多 样 化 信息 资产 。 归 根 结 底 , 大 数据 技术 可 以 快速 处 理 不 同 种 类 的 数据 ,从 中 获得 
有 价值 的 信息 ,处 理 速度 快 ,只 有 快速 才能 起 到 实际 用 途 。 随 着 网 络 .传感器 和 服务 器 等 硬 
件 设施 全 面 发 展 , 大 数据 技术 促使 众多 企业 融合 自身 需求 ,创造 出 难以 想象 的 经 济 效益 , 实 
现 巨大 的 社会 价值 ,商业 价值 高 ,各 行 各 业 利 用 大 数据 产生 极 大 增值 和 效益 ,表现 出 前 所 未 
有 的 社会 能 力 ,而 绝 不 仅仅 只 是 数据 本 身 。 所 以 ,大 数据 可 以 定义 为 在 合理 时 间 内 采集 大 规 
模 资 料 ,处 理 成 为 帮助 使 用 者 更 有 效 决 策 的 社会 过 程 。 


1.2.2 大 数据 的 特点 


业界 通常 用 4 个 V(Volume、Variety、Value、Velocity) 来 概括 大 数据 的 特征 。 

1. 数据 体 量 巨大 (Volume) 

截至 目前 ,人 类 生产 的 所 有 印刷 材料 的 数据 量 是 200PB(1PB 二 210TB) ,而 历史 上 全 人 
类 说 过 的 所 有 话 的 数据 量 大 约 是 5EB(1EB 二 210PB)。 当 前 ,典型 个 人 计算 机 硬盘 的 容量 为 
TB 量 级 ,而 一 些 大 企业 的 数据 量 已 经 接近 EB 量 级 。 

2. 数据 类 型 繁多 (Variety) 

这 种 类 型 的 多 样 性 也 让 数据 被 分 为 结构 化 数据 和 非 结 构 化 数据 。 相 对 于 以 往 便 于 存储 
的 以 文本 为 主 的 结构 化 数据 , 非 结构 化 数据 越 来 越 多 ,包括 网 络 日 志 、 音 频 、 视 频 、 图 片 、 地 理 
位 置信 息 等 ,这 些 多 类 型 的 数据 对 数据 的 处 理 能 力 提 出 了 更 高 要 求 。 

3. 价值 密度 低 CValue) 

价值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 。 以 视频 为 例 , 一 部 一 小 时 的 视频 在 连续 不 
间断 的 监控 中 ,有 用 数据 可 能 仅 有 一 两 秒 。 如 何 通过 强大 的 机 器 算法 更 迅速 地 完成 数据 的 
价值 “提纯 ?成 为 目前 大 数据 背景 下 或 待 解决 的 难题 。 

4. 处 理 速度 快 (Velocity) 

这 是 大 数据 区 别 于 传统 数据 挖掘 的 最 显著 特征 。 根 据 IDC 的 “数字 宇宙 ?的 报告 ,预计 
到 2020 年 全 球 数据 使 用 量 将 达到 35. 2ZB。 在 如 此 海量 的 数据 面前 ,处 理 数据 的 效率 就 是 
企业 的 生命 。 

















1.3 大 数据 应 用 


大 数据 应 用 是 利用 大 数据 分 析 的 结果 为 用 户 提供 辅助 决策 ,发 掘 潜在 价值 的 过 程 。 从 
理论 上 来 看 ,所 有 产业 都 会 从 大 数据 的 发 展 中 受益 。 
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1.3.1 企业 内 部 大 数据 应 用 


目前 ,大 数据 的 主要 来 源 和 应 用 都 是 来 自 于 企业 内 部 ,商业 智能 (Business Intelligence. 
BD OLAP 可 以 说 是 大 数据 应 用 的 前 辈 。 企 业内 部 大 数据 的 应 用 可 以 在 多 个 方面 提升 企 
业 的 生产 效率 和 竞争 力 。 具 体 而 言 , 市 场 方面 ,利用 大 数据 关联 分 析 , 更 准确 地 了 解 消费 者 
的 使 用 行为 ,挖掘 新 的 商业 模式 ; 销售 规划 方面 ,通过 大 量 数据 的 比较 ,优化 商品 价格 ; 运 
营 方面 ,提高 运营 效率 和 运营 满意 度 , 优 化 劳动 力 投入 ,准确 预测 人 员 配 置 要 求 , 避 免 产 能 过 
剩 ,降低 人 员 成 本 ; 供应 链 方面 ,利用 大 数据 进行 库存 优化 .物流 优化 、 供 应 商 协 同等 工作 ， 
可 以 缓和 供需 之 间 的 矛盾 ,控制 预算 开支 ,提升 服务 。 

在 金融 领域 ,企业 内 部 大 数据 的 应 用 得 到 了 快速 发 展 。 例 如 ,招商 银行 通过 数据 分 析 识 
别 出 招 行 信用 卡 价值 客户 经 常 出 现在 星巴克 .DQ、, 麦 当 劳 等 场所 后 ,通过 “多 倍 积分 累计 、 积 
分 店面 兑换 ”等 活动 吸引 优质 客户 ; 通过 构建 客户 流失 预警 模型 ,对 流失 率 等 级 前 20% 的 客 
户 发 售 高 收益 理财 产品 予以 挽留 ,使 得 金 卡 和 人 金 葵 花 卡 客户 流失 率 分 别 降 低 了 15% 和 7 了 7%%; 
通过 对 客户 交易 记录 进行 分 析 , 有 效 识别 出 潜在 的 小 微 企 业 客户 ,并 利用 远程 银行 和 云 转 介 
平台 实施 交叉 销售 ,取得 了 良好 成 效 。 

当然 ,最 典型 的 应 用 还 是 在 电子 商务 领域 ,每 天 有 数 以 万 计 的 交易 在 淘宝 上 进行 ,与 此 
同时 相应 的 交易 时 间 、 商 品 价格 ,购买 数量 会 被 记录 。 更 重要 的 是 ,这 些 信 息 可 以 与 买方 和 
卖方 的 年 龄 性别、 地址、 甚至 兴趣 爱好 等 个 人 特征 信息 相 匹 配 。 淘 宝 数据 魔方 是 淘宝 平台 
上 的 大 数据 应 用 方案 ,通过 这 一 服务 商家 可 以 了 解 淘宝 平台 上 的 行业 宏观 情况 .自己 品牌 的 
市 场 状 况 、 消 费 者 行为 情况 等 ,并 可 以 据 此 进行 生产 、 库 存 决 策 。 与 此 同时 ,更 多 的 消费 者 也 
能 以 更 优惠 的 价格 买 到 更 心仪 的 宝贝 。 而 阿里 信用 贷款 则 是 阿里 巴巴 通过 掌握 的 企业 交易 
数据 ,借助 大 数据 技术 自动 分 析 判定 是 否 给 予 企 业 贷款 ,全 程 不 会 出 现 人 工 干 预 。 据 透露 ， 
截至 目前 阿里 巴巴 已 经 放贷 300 多 亿 元 ,坏账 率 约 0.3% 左 右 ,大 大 低 于 商业 银行 。 


1.3.2 物 联 网 大 数据 应 用 


物 联 网 不 仅 是 大 数据 的 重要 来 源 ,还 是 大 数据 应 用 的 主要 市 场 。 在 物 联网 中 ,现实 世界 
中 的 每 个 物体 都 可 以 是 数据 的 生产 者 和 消费 者 ,由 于 物体 种 类 繁多 , 物 联网 的 应 用 也 层 出 
不 穷 。 

在 物 联 网 大 数据 的 应 用 上 .物流 企业 应 该 有 深刻 的 体会 。UPS 快递 为 了 使 总 部 能 在 车 
辆 出 现 晚 点 的 时 候 跟踪 到 车 辆 的 位 置 和 预防 引擎 故障 , 它 的 货车 上 装 有 传感器 无线 适 配器 
和 UPS。 同 时 ,这 些 设备 也 方便 了 公司 监督 管理 员工 并 优化 行车 线路 。UPS 为 货车 定制 的 
最 佳 行车 路 径 是 根据 过 去 的 行车 经 验 总 结 而 来 的 。2011 年 ,UPS 的 驾驶 员 少 跑 了 近 4828 























万 公里 的 路 程 。 
f 智慧 城市 是 一 个 基于 物 联网 大 数据 应 用 的 热点 研究 项 目 ， 
图 1-3 所 示 为 基于 物 联 网 大 数据 的 智能 城市 规划 。 迈 阿 密 戴 德 县 


就 是 一 个 智慧 城市 的 样板 。 佛 罗 里 达州 迈阿密 戴 德 县 与 IBM A 
aks 司 的 智慧 城市 项 目 合作 ,将 35 种 关键 县 政工 作 和 迈阿密 市 紧密 联 
图 1-3 智慧 城市 大 数据 系 起 来 ,帮助 政府 领导 在 治理 水 资源 .减少 交通 拥堵 和 提升 公共 安 
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全 方面 制定 决策 时 获得 更 好 的 信息 支撑 。IBM 公司 使 用 云 计算 环境 中 的 深度 分 析 向 戴 德 
县 提供 智能 仪表 盘 应 用 ,帮助 县 政府 各 个 部 门 实现 协作 化 和 可 视 化 管理 。 智 慧 城市 应 用 为 
戴 德 县 带 来 多 方面 的 收益 ,如 戴 德 县 的 公园 管理 部 门 今年 因 及 时 发 现 和 修复 跑 冒 滴漏 的 水 
管 而 节省 了 100 万 美元 的 水 费 。 


1.3.3 面向 在 线 社 交 网 络 大 数据 的 应 用 


在 线 社 交 网 络 是 一 种 在 信息 网 络 上 由 社会 个 体 集 合 及 个 体 之 间 的 连接 关系 构成 的 社会 
性 结构 。 在 线 社交 网 络 大 数据 主要 来 自 即 时 消息 、 在 线 社交 、 微 博 和 共享 空间 4 类 应 用 。 由 
于 在 线 社交 网 络 大 数据 代表 了 人 的 各 类 活动 ,因此 对 于 此 类 数据 的 分 析 得 到 了 更 多 关注 。 
在 线 社交 网 络 大 数据 分 析 是 从 网 络 结构 、 群 体 互动 和 信息 传播 三 个 维度 ,通过 基于 数学 、 信 
息 学 、 社 会 学 ,管理 学 等 多 个 学 科 的 融合 理论 和 方法 ,为 理解 人 类 社会 中 存在 的 各 种 关系 提 
供 的 一 种 可 计算 的 分 析 方法 。 目 前 ,在 线 社 交 网 络 大 数据 的 应 用 包括 网 络 与 情 分析 、 网 络 情 
报 搜集 与 分 析 、 社 会 化 营销 ,政府 决策 支持 、 在 线 教育 等 。 

圣 克 鲁 斯 警察 局 是 美国 警 界 最 早 应 用 大 数据 进行 预测 分 析 的 试点 ,通过 分 析 社 交 网 络 ， 
可 以 发 现 犯罪 趋势 和 犯罪 模式 ,甚至 可 以 对 重点 区 域 的 犯罪 概率 进行 预测 。 

2013 年 4 月 ,美国 计算 搜索 引擎 Wolfram Alpha 通过 对 Facebook 中 100 多 万 美国 用 
户 社交 数据 进行 分 析 , 试图 研究 用 户 的 社会 行为 规律 。 根 据 分 析 发 现 ,大 部 分 Facebook 用 
户 在 20 岁 出 头 开 始 恋爱 ,27 岁 左右 订婚 ,30 岁 左右 结婚 ,而 30 一 60 岁 之 间 婚 姻 关 系 变化 组 
慢 。 这 个 研究 结果 与 美国 人 口 普查 数据 相 比 , 几 乎 完全 一 致 。 

总 的 来 说 ,在 线 社交 网 络 大 数据 应 用 可 以 从 以 下 三 方面 帮助 我 们 了 解 人 的 行为 ,以 及 掌 
握 社 会 和 经 济 活动 的 变化 规律 。 

a) 前 期 警告 。 通 过 检测 用 户 使 用 电子 设备 及 服务 中 出 现 的 异常 ,在 出 现 危 机 时 可 以 
更 快速 地 应 对 。 

(2) 实时 监控 。 通 过 对 用 户 当 前 行为 .情感 和 意愿 等 方面 的 监控 ,可 以 为 政策 和 方案 的 
制定 提供 准确 的 信息 。 

G) 实时 反馈 。 在 实时 监控 的 基础 上 ,可 以 针对 某 些 社会 活动 获得 群体 的 反馈 信息 。 


1.3.4 医疗 健康 大 数据 应 用 


医疗 健康 数据 是 持续 、 高 增长 的 复杂 数据 ,蕴涵 的 信息 价值 也 是 丰富 多 样 。 对 其 进行 有 
效 的 存储 、 处 理 、 查 询 和 分 析 , 可 以 开发 出 其 潜在 价值 。 对 于 医疗 大 数据 的 应 用 ,将 会 深远 地 
影响 人 类 的 健康 。 例 如 ,安泰 保险 为 了 帮助 改善 代谢 综合 征 的 预测 ,从 千 名 患者 中 选择 
102 个 完成 实验 。 通 过 患者 的 一 系列 代谢 综合 征 的 检测 试验 结果 ,在 连续 3 年 内 扫描 
600 000 个 化 验 结 果 和 18 万 索赔 事件 。 将 最 后 的 结果 组 成 一 个 高 度 个 性 化 的 治疗 方案 ,以 
评估 患者 的 危险 因素 和 重点 治疗 方案 。 这 样 ,医生 可 以 通过 食用 他 汀 类 药物 及 减 重 5 磅 等 
建议 而 减少 未 来 10 年 内 50% 的 发 病 率 。 或 者 通过 患者 目前 体内 高 于 20% 的 含 糖 量 ,而 建 
议 降 低 体内 甘油 三 酯 总 量 。 

西奈 山 医 疗 中 心 (Mount Sinai Meddical Center) 是 美国 最 大 、 最 古老 的 教学 医院 ,也 是 
重要 的 医学 教育 和 生物 医药 研究 中 心 。 该 医疗 中 心 使 用 来 自 大 数据 创业 公司 Ayasdi 的 技 
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术 分 析 大 肠 杆菌 的 全 部 基因 序列 ,包括 超过 100 万 个 DNA 变 体 来 了 解 为 什么 菌株 会 对 抗 
生 素 产生 抗 药性 。Ayasdi 的 技术 使 用 了 一 种 全 新 的 数学 研究 方法 一 一 拓扑 数据 分 析 
(Topological Data Analysis) 来 了 解数 据 的 特征 。 

微软 公司 的 HealthVault 是 一 个 出 色 的 医学 大 数据 的 应 用 , 它 于 2007 年 发 布 ,目标 是 
希望 管理 个 人 及 家 庭 医疗 设备 中 的 个 人 健康 信息 。 现 在 已 经 可 以 通过 移动 智能 设备 录入 上 
传 健康 信息 ,而 且 还 可 以 第 三 方 的 机 构 导 入 个 人 病历 记录 。 此 外 ,通过 提供 SDK 及 开放 的 
接口 ,支持 与 第 三 方 应 用 的 集成 。 


1.3.5 群 智 感知 


随 着 技术 的 发 展 ,智能 手机 和 平板 电脑 等 移动 设备 集成 了 越 来 越 多 的 传感器 ,计算 和 感 
知 能 力也 越发 强大 。 在 移动 设备 被 广泛 使 用 的 背景 下 , 群 智 感知 开始 成 为 移动 计算 领域 的 
应 用 热点 。 大 量 用 户 使 用 移动 智能 设备 作为 基本 节点 ,通过 蓝牙 .无线 网 络 和 移动 因特网 等 
方式 进行 协作 ,通过 感知 任务 分 发 ,收集 \、 利 用 感知 数据 ,最 终 完成 大 规模 的 ,复杂 的 社会 感 
知 任务 。 群 智 感 知 对 参与 者 的 要 求 很 低 ,用 户 并 不 需要 相关 的 专业 知识 或 技能 ,只 需 拥 有 一 
台 移动 智能 设备 。 

众 包 (Crowdsourcing) 是 一 种 极 具 代表 性 的 群 智 感知 模式 ,是 一 种 新 型 的 解决 问题 的 方 
式 。 众 包 以 用 户 为 基础 ,以 自由 参与 的 方式 分 发 任务 。 目 前 众 包 已 经 被 运用 于 人 力 密 集 的 
应 用 ,如 语言 翻译 .语音 识别 .图 像 地 理 信息 标记 ,定位 与 导航 、 城 市 道路 交通 感知 .市场 预 
测 ,意见 挖掘 等 。 众 包 的 核心 思想 是 将 任务 分 而 治之 ,通过 参与 者 的 协作 来 完成 个 体 不 可 能 
或 者 说 根本 想不到 要 完成 的 任务 。 无 须 部 署 感知 模块 和 雇佣 专业 人 员 , 众 包 就 可 以 将 感知 
范围 扩展 至 城市 规模 甚至 更 大 。 

其 实 , 众 包 的 应 用 早 于 大 数据 的 兴起 ,宝洁 .宝马 .奥迪 等 许多 公司 都 曾 借助 众 包 提升 自 
身 的 研发 和 设计 能 力 。 而 在 大 数据 时 代 , 空 间 众 包 服务 (Spatial Crowd Sourcing) 成 为 大 家 
关注 的 热点 。 空 间 众 包 服 务 的 工作 框架 如 下 : 服务 请 求 方 要 求 获取 与 特定 地 点 相关 的 资 
源 ,而 愿意 接受 任务 请 求 的 参与 者 将 到 达 指 定 地 点 ,利用 移动 设备 获取 相关 数据 (视频 、 音 频 
或 图 片 ), 最 后 将 这 些 数 据 发 送 给 服务 请 求 方 。 随 着 移动 设备 使 用 的 高 速 增长 及 移动 设备 提 
供 的 功能 越 来 越 复杂 ,可 以 预见 空间 众 包 将 会 变 得 比 传统 形式 的 众 包 服务 更 加 流行 。 


1.3.6 智能 电网 


智能 电网 是 指 将 现代 信息 技术 融入 传统 能 源 网 络 构 成 新 的 电网 ,通过 用 户 的 用 电 习 惯 
等 信息 ,优化 电能 的 生产 、 供 给 和 消耗 ,是 大 数据 在 电力 系统 上 的 应 用 。 智 能 电网 可 以 解决 
以 下 几 个 方面 的 问题 。 

1. 电网 规划 

通过 对 智能 电网 中 的 数据 进行 分 析 , 可 以 知道 哪些 地 区 的 用 电 负 荷 和 停电 频率 过 高 ,其 
至 可 以 预测 哪些 线路 可 能 出 现 故 障 。 这 些 分 析 结 果 有 助 于 电网 的 升级 、 改 造 、 维 护 等 工作 。 
例如 ,美国 加 州 大 学 洛杉矶 分 校 的 研究 者 就 根据 大 数据 理论 设计 了 一 款 “ 电 力 地 图 ”, 将 人 口 
调查 信息 、 电 力 企业 提供 的 用 户 实时 用 电信 息 和 地 理 、 气 象 等 信息 全 部 集合 在 一 起 ,制作 了 
一 款 加 州 地 图 。 该 图 以 街区 为 单位 ,展示 每 个 街区 在 当下 时 刻 的 用 电量 ,甚至 还 可 以 将 这 个 
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街区 的 用 电量 与 该 街区 人 的 平均 收入 和 建筑 物 类 型 等 相 比 照 ,从 而 得 出 更 为 准确 的 社会 各 
群体 的 用 电 习 惯 信息 。 这 个 地 图 为 城市 和 电网 规划 提供 了 直观 有 效 的 负荷 数 预 测 依据 ,也 
可 以 按照 图 中 显示 的 停电 频率 较 高 .过 载 较为 严重 的 街区 进行 电网 设施 的 优先 改造 。 

2. 发 电 与 用 电 的 互动 

理想 的 电网 应 该 是 发 电 与 用 电 的 平衡 。 但 是 ,传统 电网 的 建设 是 基于 发 - 输 - 变 - 配 - 用 的 
单 向 思维 ,无 法 根据 用 电量 的 需求 调整 发 电量 ,造成 电能 的 元 余 浪 费 。 为 了 实现 用 电 与 发 电 
的 互动 ,提高 供电 效率 ,研究 者 开发 出 了 智能 的 用 电 设备 一 一 智能 电表 。 得 克 萨 斯 电力 公司 
(TXU Energy) 已 经 广泛 使 用 智能 电表 ,并 取得 了 巨大 的 成 效 。 供 电 公司 能 每 隔 15min 就 
读 一 次 用 电 数 据 ,而 不 是 过 去 的 一 月 一 次 。 这 不 仅 节省 了 抄 表 的 人 工 费 用 ,而 且 由 于 能 高 频 
率 快 速 采集 分 析 用 电 数 据 , 供 电 公司 能 根据 用 电 高 峰 和 低谷 时 段 制定 不 同 的 电价 ,利用 这 种 
价格 杠杆 来 平抑 用 电 高 峰 和 低谷 的 波动 幅度 。 智 能 电表 和 大 数据 应 用 让 分 时 动态 定价 成 为 
可 能 ,而 且 这 对 于 TXU Energy 和 用 户 来 说 是 一 个 双赢 变化 。 

3. 间歇 式 可 再 生 能 源 的 接 入 

目前 许多 新 能 源 也 被 接 入 电网 ,但 是 风能 和 太阳 能 等 新 能 源 的 发 电能 力 与 气候 条 件 密 
切 相 关 , 具 有 随机 性 和 间歇 性 的 特点 ,因此 难以 直接 并 入 电网 。 如 果 通 过 对 电网 大 数据 的 分 
析 , 则 可 对 这 些 间歇 式 新 能 源 进行 有 效 调节 ,在 其 产生 电能 时 ,根据 电网 中 的 数据 将 其 调配 
给 电力 紧缺 地 区 ,与 传统 的 水 火电 能 有 效 地 互补 。 


1.4 大 数据 的 研究 与 展望 


大 数据 的 出 现 开启 了 一 次 重大 的 时 代 转 型 。 在 IT 时 代 , 技 术 (Technology,T) 才 是 大 
家 关注 的 重点 ,是 技术 推动 了 数据 的 发 展 。 如 今 数 据 的 价值 凸显 ,信息 (Information ,DT) 的 重 
要 性 日 益 提高 ,今后 将 是 数据 推动 技术 的 进步 。 大 数据 不 仅 改变 了 社会 经 济 生活 ,也 在 影响 
着 每 个 人 的 生活 和 思维 方式 ,而 这 样 的 改变 才刚 刚 开 始 。 

1. 规模 更 大 、 种 类 更 多 ,结构 更 复杂 的 数据 

虽然 目前 以 Hadoop 为 代表 的 技术 取得 了 巨大 的 成 功 ,但 是 随 着 大 数据 迅猛 的 发 展 速 
度 ,这 些 技术 肯定 也 会 落伍 被 淘汰 。 就 如 同 Hadoop, 它 的 理论 基础 早 在 2006 年 就 已 诞生 。 
为 了 能 更 好 地 应 对 未 来 规模 更 大 、 种 类 更 多 、 结 构 更 复杂 的 数据 ,很 多 研究 者 已 经 开始 关注 
此 问题 ,其 中 最 为 著名 的 当 属 谷歌 的 全 球 级 分 布 式 数据 库 Spanner, 以 及 可 容错 可 扩展 的 分 
布 式 关 系 型 数据 库 。 未 来 ,大 数据 的 存储 技术 将 建立 在 分 布 式 数据 库 的 基础 上 ,支持 类 似 于 
关系 型 数据 库 的 事务 机 制 ,可 以 通过 类 SQL 语法 高 效 地 操作 数据 。 

2. 数据 的 资源 化 

既然 大 数据 中 蕴藏 着 巨大 的 价值 ,那么 掌握 大 数据 就 掌握 了 资源 。 从 大 数据 的 价值 链 
分 析 , 其 价值 来 自 数据 本 身 、 技 术 和 思维 ,而 核心 就 是 数据 资源 ,离开 了 数据 技术 和 思维 是 无 
法 创造 价值 的 。 不 同 数据 集 的 重组 和 整合 可 以 创造 出 更 多 的 价值 。 今 后 ,掌控 大 数据 资源 
的 企业 将 数据 使 用 权 进 行 出 租 和 转让 就 可 以 获得 巨大 的 利益 。 

3. 大 数据 促进 科技 的 交叉 融合 

大 数据 不 仅 促进 了 云 计 算 、 物 联网 .计算 中 心 、 移 动 网 络 等 技术 的 充分 融合 ,还 催生 了 许 
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多 学 科 的 交叉 融合 。 大 数据 的 发 展 , 既 需要 立足 于 信息 科学 ,探索 大 数据 的 获取 、 存 储 、 处 
理 、 挖 掘 和 信息 安全 等 创新 技术 与 方法 ,也 需要 从 管理 的 角度 探讨 大 数据 给 现代 企业 生产 管 
理 和 商务 运营 决策 等 方面 带 来 的 变革 与 冲击 。 而 在 特定 领域 的 大 数据 应 用 更 需要 跨 学 科 人 
才 的 参与 。 

4. 面向 数据 

程序 是 数据 结构 和 算法 ,而 数据 结构 就 是 存储 数据 的 。 在 程序 设计 的 发 展 历程 中 也 可 
以 看 出 数据 的 地 位 越 来 越 重 要 。 在 逻辑 比 数据 复杂 的 小 规模 数据 时 代 , 程 序 设 计 以 面向 过 
程 为 主 。 随 着 业务 数据 的 复杂 化 ,催生 了 面向 对 象 的 设计 方法 。 如 今 , 业 务 数据 的 复杂 度 面 
向 数据 的 设计 必然 是 未 来 趋势 。 

5. 大 数据 可 视 化 

在 许多 人 机 交互 场景 中 都 遵循 所 见 即 所 得 的 原则 ,例如 文本 和 图 像 编 辑 器 等 。 在 大 数 
据 应 用 中 ,混杂 的 数据 本 身 是 难以 辅助 决策 的 ,只 有 将 分 析 后 的 结果 以 友好 的 形式 展现 , 才 
会 被 用 户 接受 并 加 以 利用 。 报 表 、 直 方 图 、 饼 状 图 、 回 归 曲 线 等 经 常 被 用 于 表现 数据 分 析 的 
结果 ,以 后 肯定 会 出 现 更 多 的 新 颖 的 表现 形式 ,例如 微软 公司 的 “人 立方 ”社交 搜索 引擎 使 用 
关系 图 来 表现 人 际 关系 。 

6. 大 数据 引发 思维 变革 

在 大 数据 时 代 , 数 据 的 收集 、 获 取 和 分 析 都 更 加 快捷 ,这 些 海量 的 数据 将 对 我 们 的 思考 
方式 产生 深远 的 影响 。 在 文献 中 ,对 大 数据 引发 的 思维 变革 进行 了 总 结 : 

(1) 分 析 数 据 时 ,要 尽 可 能 地 利用 所 有 数据 ,而 不 只 是 分 析 少 量 的 样本 数据 。 

(2) 相 比 于 精确 的 数据 ,我 们 更 乐于 接受 纷繁 复杂 的 数据 。 

(3) 应 该 更 为 关注 事物 之 间 的 相关 关系 ,而 不 是 探索 因果 关系 。 

(4) 大 数据 的 简单 算法 比 小 数据 的 复杂 算法 更 为 有 效 。 

G) 大 数据 的 分 析 结果 将 减少 决策 中 的 草率 和 主观 因素 ,数据 科学 家 将 取代 “专家 ”。 

7. 以 人 为 本 的 大 数据 

纵 观 人 类 社会 的 发 展 史 ,人 的 需求 及 意愿 始终 是 推动 科技 进步 的 动力 。 在 大 数据 时 代 ， 
通过 挖掘 和 分 析 处 理 , 大 数据 可 以 为 人 的 决策 提供 参考 ,但 是 并 不 能 取代 人 的 思考 。 正 是 人 
的 思维 才 促 进 了 大 数据 的 应 用 ,而 大 数据 更 像 是 人 的 大 脑 功 能 的 延伸 和 扩展 ,而 不 是 大 脑 的 
替代 品 。 随 着 物 联 网 的 兴起 ,移动 感知 技术 的 发 展 , 数 据 采 集 技术 的 进步 ,人 不 仅 是 大 数据 
的 使 用 者 和 消费 者 ,还 是 生产 者 和 参与 者 。 基 于 大 数据 的 社会 关系 感知 、 众 包 、 社 交 网 络 大 
数据 分 析 等 与 人 的 活动 密切 相关 的 应 用 ,在 未 来 会 受到 越 来 越 多 的 关注 ,也 必 将 引起 社会 活 
动 的 巨大 变革 。 








1.5 本章 小 结 


本 章 介 绍 了 大 数据 产生 背景 ,大 数据 发 展 历程 ,大 数据 概念 和 特点 ,大 数据 应 用 场景 ,大 
数据 研究 展望 等 内 容 。 
“大 数据 一 词 真正 成 为 热点 是 在 2011 年 5 月 ,EMC 在 美国 拉 斯 维 加 斯 举办 第 11 届 
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EMC World 大 会 ,以 云 计 算 相 遇 大 数据 (Cloud Meet Gig Data) 为 主题 着 重 展现 当今 两 个 最 
重要 的 技术 趋势 。 

“大 数据 ”是 指 以 多 元 形式 存在 ,从 多 来 源 搜集 的 庞大 数据 组 ,往往 具有 实时 性 。 大 数据 
具有 数据 体 量 巨 大 、 数 据 类 型 繁多 、 价 值 密度 低 、 处 理 速度 快 等 重要 特征 ,在 企业 内 部 、 物 联 
网 .社交 媒体 .医疗 健康 、 群 感知 .智能 电网 等 方面 有 广泛 应 用 ,研究 前 景 广阔 。 
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2.1 大 数据 和 云 计 算 的 关系 


现在 , 当 大 数据 越 来 越 受 到 重视 和 追捧 时 ,人 们 自然 会 想到 这 几 年 风起云涌 的 “ 云 计 
算 ”。 云 计算 的 “ 云 " 也 包括 "巨大 ”的 意思 ,那么 大 数据 和 云 计 算是 一 回 事 吗 ? 它们 究竟 是 什 
么 关系 ? 


2.1.1 大 数据 和 云 计 算 关系 概述 


数据 已 经 成 为 从 工业 经 济 向 知识 经 济 转变 的 重要 特征 ,是 当今 时 代 最 关键 的 生产 要 素 
和 产品 形态 。 在 大 规模 生产 、 分 享 、 应 用 数据 的 时 代 , 从 社交 网 络 、 微 博 、 即 时 通信 工具 上 可 
以 随时 随地 发 送 消息 .分 享 照片 ,传送 视频 ,每 一 刻 都 产生 多 种 格式 的 数据 ,每 个 人 都 成 为 数 
据 的 创造 者 和 使 用 者 。 

自 计 算 机 发 明 以 来 ,直到 大 数据 时 代 之 前 ,人 们 面 对 的 数据 大 多 数 是 有 结构 的 ,这 类 数 
据 逻 辑 性 强 , 存 在 较 强 的 因果 联系 。 典 型 的 例子 是 运营 商 客户 关系 系统 中 记录 着 用 户 的 号 
码 、 开 户 时 间 、 开 户 地 点 、 套 餐 类 型 等 信息 。 而 现在 ,人 们 所 面 对 的 大 多 数 数据 都 是 非 结构 化 
的 ,这 类 数据 具有 随时 、 海 量 、 弹 性 、 不 可 控制 的 特点 。 典 型 的 例子 如 某 一 时 刻 的 交通 堵塞 、 
天 气 状态 、 一 个 社会 事件 产生 的 因特网 数据 ( 微 博 、 图 片 、 文 章 、 音 乐 、 视 频 ) 等 。 据 IDC 等 国 
外 咨询 公司 预测 , 非 结构 化 数据 所 占 比例 超过 80%, 而 这 一 比例 还 在 逐渐 加 大 。 

目前 ,主要 由 非 结 构 化 数据 组 成 的 大 数据 颠覆 了 传统 的 IT 世界 ,挑战 着 企业 的 存储 架 
构 、 数 据 中 心 的 基础 设施 ,影响 着 数据 挖掘 、 商 业 智能 、 云 计算 等 各 个 应 用 环节 。 业 界 普遍 共 
识 , 大 数据 将 是 继 云 计 算 、 物 联网 之 后 信息 技术 领域 的 又 一 热点 。 大 数据 是 信息 技术 未 来 发 
展 的 战略 走向 ,将 催生 下 一 代价 值 数 万 亿美 元 的 软件 企业 ,以 大 数据 为 代表 的 数据 密集 型 科 
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学 将 成 为 新 一 次 技术 变革 的 基石 。 

谈 到 大 数据 ,不 可 避免 地 提 及 云 计 算 技术 , 云 计算 结合 大 数据 ,这 是 时 代 发 展 的 必然 趋 
势 。 有 人 把 云 计 算 和 大 数据 比 作 是 一 个 硬币 的 两 面 。 云 计算 是 大 数据 的 IT 基础 和 平台 ， 
而 大 数据 是 云 计算 范畴 内 最 重要 、 最 关键 的 应 用 。 大 数据 体现 的 是 结果 , 云 计算 体现 的 是 过 
程 。 由 于 云 计算 的 存在 ,使 大 数据 的 价值 得 以 挖掘 体现 。 云 计算 是 大 数据 成 长 的 驱动 力 。 
而 另 一 方面 ,由 于 大 数据 的 巨大 价值 越 来 越 被 社会 各 业 所 发 现 并 重视 ,大 数据 的 地 位 日 益 重 
要 。 在 某 种 意义 上 看 ,大 数据 的 地 位 已 超越 云 计算 。 但 是 客观 地 评价 ,大 数据 和 云 计 算 两 者 
之 间 是 相辅相成 、 缺 一 不 可 的 。 也 就 是 说 ,它们 是 同等 重要 的 。 就 如 一 个 硬币 的 两 面 , 互 为 
依存 ,相互 促进 ,图 2-1 展示 了 大 数据 和 云 计算 关系 。 


非 结构 化 数据 半 结 构 化 数据 结构 化 数据 
基因 测序 “电影 剪 邹 ”地震 研 究 社交 媒体 点 击 流 效率 ”电信 计算 Pos ”销售 预测 
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图 2-1 大 数据 和 云 计 算 关 系 


当然 ,需要 特别 强调 的 是 ,实现 这 些 目标 是 有 前 提 的 ,这 就 是 需要 在 云 计算 的 背景 下 实 
现 大 数据 的 重要 功能 。 如 果 没 有 云 计 算 的 话 , 大 数据 就 类 似 在 作坊 里 造 航母 ,是 没有 任何 意 
义 的 。 

综 上 所 述 , 云 计算 技术 可 以 实现 IT 资源 的 自动 化 管理 和 配置 ,降低 IT 管理 的 复杂 性 ， 
提高 资源 利用 效率 ; 大 数据 技术 主要 解决 大 规模 的 数据 承载 .计算 等 问题 。 云 计算 代表 着 
一 种 数据 存储 ,计算 能 力 ,大 数据 代表 着 一 种 数据 知识 挑战 ,计算 需要 数据 来 体现 其 效率 , 数 
据 需 要 计算 来 体现 价值 。 云 计算 与 大 数据 的 关系 包括 两 个 层面 : 

(1) 云 计算 的 资源 共享 、 高 可 扩展 性 、 服 务 特性 可 以 用 来 搭建 大 数据 平台 ,进行 数据 管 
理 和 运营 ; 云 计算 架构 及 服务 模式 为 大 数据 提供 基础 的 信息 存储 、 分 享 解决 方案 ,是 大 数据 
挖掘 及 知识 生产 的 基础 。 

(2) 大 数据 技术 对 存储 分析、 安全 的 需求 ,促进 了 云 计算 架 构 、 云 存储 、 云 安全 技术 快 
速 发 展 和 演进 ,推动 了 云 服务 与 云 应 用 的 落地 。 


2.1.2 云 计 算是 大 数据 处 理 的 基础 


云 计算 是 大 数据 处 理 的 基础 , 现 有 大 数据 平台 广泛 地 使 用 云 计算 架构 及 云 计算 服务 。 
如 使 用 Hadoop 存储 和 处 理 PB 级 别 的 半 结 构 化 、 非 结构 化 的 大 数据 ; 使 用 MapReduce 将 
大 数据 问题 分 解 成 多 个 子 问题 ,然后 将 子 问题 分 配 到 成 百 上 千 个 处 理 节 点 之 上 ,最 后 再 将 结 
果 汇 集 到 一 个 小 数据 集 当 中 ,从 而 更 容易 分 析 得 到 最 后 的 结果 。 

此 外 ,对 于 短期 大 数据 处 理 项 目 , 如 果 数 据 处 理 需要 大 量 的 计算 资源 和 存储 资源 , 云 平 
台 是 唯一 可 行 选 择 。 在 项 目 启动 期 间 可 以 迅速 获得 云 中 的 存储 空间 和 处 理 能 力 , 而 在 项 目 
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结束 之 后 可 以 迅速 释放 这 些 资源 和 能 力 。 
随 着 云 计算 技 术 的 不 断 成 熟 , 云 服务 性 价 比 、 可 扩展 性 、 灵 活性 和 可 管理 性 不 断 提升 , 越 
来 越 多 的 应 用 和 数据 将 迁移 至 云 中 , 云 计算 和 大 数据 将 会 更 紧密 地 结合 。 


2.1.3 大 数据 是 云 计 算 的 延伸 


大 数据 技术 涵盖 了 从 数据 的 海量 存储 、 处 理 到 应 用 多 方面 的 技术 ,如 海量 布 式 文件 系 
统 、 行 计算 框架 ,NoSQL 数据 库 、 实 时 流 数 据 处 理 、 智 能 分 析 技 术 等 。 由 此 可 见 , 大 数据 技术 
与 云 计算 的 发 展 密切 相关 ,大 数据 技术 可 以 看 作 是 云 计算 技术 的 延伸 。 

以 因特网 公司 为 例 , 大 数据 技术 可 以 为 因特网 公司 带 来 更 多 的 机 会 ,目前 已 经 搭建 云 计 
算 平 台 ,存储 海量 网 络 运营 数据 .用户 语音 数据 ,用 户 上 网 数据 。 因 特 网 企业 可 以 使 用 大 数 
据 技术 进一步 对 云 平台 中 的 数据 进行 应 用 ,挖掘 ,运营 商 的 数据 应 用 可 以 涵盖 多 个 方面 , 包 
括 企业 管理 分 析 , 如 战略 分 析 、 竞 争 分 析 ; 运营 分 析 , 如 用 户 分 析 、 业 务 分 析 、 流 量 经 营 分 析 ; 
营销 分 析 , 如 精准 营销 ,个 性 化 推荐 等 。 

云 计 算 技 术 的 发 展 落 后 于 产业 界 的 期 望 ,因为 安全 、 可 靠 问 题 还 不 能 打消 用 户 的 疑虑 ， 
那么 大 数据 技术 的 需求 可 能 会 加 速 云 计 算 的 发 展 , 引 发 云 架构 的 演进 ,在 大 数据 发 展 的 初 
期 ,大 数据 可 能 成 为 云 平 台 上 的 重要 应 用 。 


2.2 云 计 算 概念 























2.2.1 云 的 兴起 


2006 年 8 月 9 日 ,“ 云 计算 (Cloud Computing) ”这 个 名 词 由 Google 首席 执行 官 埃 里 克 。 施 
密 特 (Eric Schmidt) 在 搜索 引擎 大 会 (SES San Jose 2006) 上 第 一 次 提出 。 云 计算 的 构想 一 
经 提出 ,立刻 在 全 球 信息 产业 界 与 研究 领域 引起 了 广泛 关注 。 

在 产业 界 方面 ,全 球 各 大 IT 巨头 围绕 云 计 算 展 开 了 激烈 角逐 ,纷纷 投入 巨 资 ,快速 地 
推出 一 系列 令 人 炫目 的 重大 项 目 与 计划 ,诸如 : 

(1) Google 公司 在 云 计算 方面 推出 了 MapReduce( 新 型 的 分 布 式 计算 模型 )、GFS 
(Google File System, 一 种 分 布 式 文件 系统 ) 及 BigTable( 一 种 结构 化 数据 的 分 布 存储 系统 ) 。 

(2) 从 2007 年 开始 ,微软 公司 在 美国 .爱尔兰 .冰岛 等 地 投资 数 十 亿美 元 建设 其 用 于 
“ 云 计算 ”的 “服务 器 农场 ”, 每 个 “农场 ” 占 地 都 超过 7 个 足球 场 ,集成 数 十 万 台 计 算 机 服务 
器 田 。 

(3) IBM 公司 推出 蓝 云 计 算 平台 为 企业 客户 搭建 分 布 式 、 可 通过 因特网 访问 的 云 计算 
体系 , 它 包括 一 系列 的 自动 化 、 自 我 管理 和 自我 修复 的 虚拟 化 云 计算 软件 ,使 来 自 全 球 的 应 
用 可 以 访问 分 布 式 的 大 型 服务 器 池 , 使 得 数据 中 心 在 类 似 于 因特网 的 环境 下 运行 计算 。 

(4) 亚马逊 公司 推出 自己 的 亚马逊 网 络 服 务 (Amazon Web Services. AWS) ,提供 的 云 
计算 服务 功能 主要 包括 弹性 计算 云 (EC2) ,简单 存储 服务 (S3) ,简单 数据 库 服 务 (Simple 
DB) ,简单 队列 服务 (SQS) 等 。 

(5) 其 他 如 雅虎 .Sun 和 思科 等 公司 ,围绕 “ 云 计 算 ” 也 都 有 重大 举措 。 





第 2 章 大 数据 和 云 计算 





在 研究 领域 方面 ,从 IEEE 收录 的 论文 数据 库 中 使 用 关键 字 clouding computing 按 年 
度 进行 检索 ,从 2006 年 到 2011 年 ,收录 的 云 计算 相关 论文 的 数量 分 别 为 248、277、504、 
1212、2607、3822。 可 见 , 从 2008 年 度 开始 , 越 来 越 多 的 计算 机 科研 人 员 投 入 到 云 计算 研究 
之 中 。 

在 信息 产业 规划 方面 ,全 球 各 国政 府 也 不 遗 余力 ,纷纷 推出 一 系列 云 计算 相关 的 计划 ， 
诸如 : 

(1) 2011 年 2 月 美国 政府 发 布 的 (联邦 云 计算 战略 》, 规 定 在 所 有 联邦 政府 信息 化 项 目 
中 云 计算 优先 。 

(2) 欧盟 制定 了 “第 7 框架 计划 (FP7)”, 推 动 云 计算 产业 发 展 。 

G) 英国 已 开始 实施 政府 云 (G-cloud) 计 划 , 所 有 的 公共 部 门 都 可 以 根据 自己 的 需求 通 
过 G-cloud 平台 来 挑选 和 组 合 所 需 服务 。 

(4) 2009 年 日 本 总 务 省 " 霞 关 云 计算 ”计划 ,计划 在 2015 年 前 建立 一 个 大 规模 的 云 计算 
基础 设施 ,实现 电子 政务 集中 到 一 个 统一 的 云 计算 基础 设施 之 上 ,以 提高 运营 效率 、 降 低 
成 本 。 

在 中 国 国 内 ,“ 云 计算 ”的 研究 与 应 用 基本 与 国外 同步 。2010 年 6 月 ,胡锦涛 总 书记 在 
两 院 院士 大 会 上 就 指出 ,“ 互 联网 、 云 计算 、 物 联网 ,知识 服务 、 智 能 服务 的 快速 发 展 为 个 性 化 
制造 和 服务 创新 提供 了 有 力 工具 和 环境 ”, 将 云 计算 应 用 提 上 了 创新 生产 方式 的 高 度 。 

同年 10 月 ,国家 发 展 和 改革 委员 会 .工业 和 信息 化 部 联合 发 布 4 关于 做 好 云 计 算 服 务 创 
新 发 展 试点 示范 工作 的 通知 》 确 定 在 北京 ` 上 海 、 深 圳 杭州, 无锡 5 个 城市 先行 开展 云 计算 
服务 创新 发 展 试点 示范 工作 。 


2.2.2 云 计算 的 定义 及 其 特点 


如 此 热门 的 云 计算 , 它 究竟 是 什么 呢 ? 它 是 一 种 开创 性 的 新 计算 机 技术 ? 还 是 一 种 新 
的 信息 化 应 用 模式 ? 这 个 问题 可 以 通过 云 计 算 的 概念 分 析 来 了 予以 回答 ,下 面 是 云 计算 的 一 
些 主流 定义 ( 云 计算 的 定义 很 多 ,这 里 只 列 出 具有 代表 性 的 定义 ) : 

。 IBM; 云 计算 是 一 种 计算 模式 ,在 这 种 模式 中 ,应 用 、 数 据 和 IT 资源 以 服务 的 方式 通 
过 网 络 提 供给 用 户 使 用 。 云 计算 也 是 一 种 基础 架构 管理 的 方法 论 ,大 量 的 计算 资源 
组 成 IT 资源 池 , 用 于 动态 创建 高 度 虚拟 化 的 资源 提供 给 用 户 使 用 。 

加 州 大 学 伯克利 分 校 的 云 计算 白 皮 书 : 云 计算 包含 Internet 上 的 应 用 服务 及 在 数据 
中 心 提供 这 些 服务 的 软 硬 件 设施 , 因特网 上 的 应 用 服务 一 直 被 称 为 软件 即 服务 
(Software as a Service, SaaS) ,而 数据 中 心 的 软 硬 件 设施 就 是 云 (Cloud)。 

Markus Klems; 云 计 算是 一 个 襄 括 了 开发 、 负 载 均 衡 、 商 业 模式 及 架构 的 流行 词 ,是 
软件 业 的 未 来 模式 (Software10.0)。 或 者 简单 地 讲 , 云 计算 就 是 以 Internet 为 中 心 
的 软件 。 

虽然 这 些 定义 各 不 相同 ,但 总 体 上 可 以 看 出 云 计算 的 特点 主要 体现 在 三 个 方面 : 

(1) 应 用 层面 : 云 计算 是 一 种 新 的 计算 模式 , 它 将 现 有 的 计算 资源 集中 组 成 资源 池 。 
值得 注意 的 是 ,计算 资源 的 概念 不 是 指 传 统 意义 上 的 网 络 、 计 算 机 这 样 的 硬件 设施 ,而 是 通 
过 虚拟 化 技术 ,基于 不 同 软 硬 件 资源 实现 的 虚拟 化 的 计算 资源 池 ,这 使 得 用 户 可 以 通过 网 络 
来 访问 各 种 形式 的 计算 资源 。 
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(2) 服务 层面 : 云 计算 通过 网 络 提供 各 类 计算 资源 ,网 络 使 得 用 户 可 以 跨越 地 理 空 间 
的 限制 ,随时 随地 通过 云 计 算 资 源 中 心 来 获得 各 类 资源 。 

(3) 技术 层面 : 云 计算 是 一 种 新 的 软 硬 件 基础 架构 ,与 传统 分 散 的 计算 机 基础 设施 建 
设 规划 相 比 , 云 计算 强调 的 是 计算 资源 中 心 化 ,通过 大 规模 的 云 计 算 中 心 ,整合 海量 的 数据 
处 理 与 存储 能 力 , 通 过 网 络 向 用 户 提 供 服务 。 

由 云 计算 的 特点 可 以 看 出 , 云 计 算 给 未 来 信息 化 社会 建设 描绘 一 幅 壮 丽 的 前 景 蓝图 : 

通过 云 计 算 , 普 通 的 用 户 ,如 企业 公司 ,政府 等 社会 组 织 机 构 不 需要 部 署 自己 的 机 房 、 各 
种 服务 器 ,聘请 专业 的 维护 人 员 , 维 护 自己 的 IT 设施 运行 等 ,只 需要 向 云 计算 服务 商 购买 
云 计算 资源 中 心 提供 的 相应 服务 即 可 。 云 计算 可 以 提供 的 资源 包括 虚拟 机 、 虚 拟 网 络 、 虚 拟 
数据 库 , 以 及 部 署 在 这 些 服务 器 上 的 应 用 软件 等 。 用 户 不 再 担心 自己 应 如 何 部 署 与 管理 与 
IT 应 用 相关 的 各 种 问题 ,如 7X24 小 时 的 无 故障 、 系 统 备份 、 安 全 隐患 排除 等 ,这 些 问 题 都 
交 给 更 专业 的 云 计算 服务 商 。 

通过 云 计算 , 云 计算 服务 商 可 以 实现 集中 统一 掌控 大 量 的 计算 资源 ,向 用 户 提供 弹性 化 
的 计算 资源 服务 。 通 过 虚拟 化 技术 实现 的 虚拟 化 计算 资源 池 , 可 以 根据 用 户 的 需求 实现 弹 
性 化 的 扩展 ,同时 计算 资源 越 来 越 集中 ,会 产生 规模 化 的 效应 ,也 意味 着 在 维护 管理 方面 效 
率 会 增加 。 这 两 方面 结合 ,将 使 得 云 计 算 服务 商 在 计算 资源 及 其 管理 维护 方面 投入 的 资金 
利用 率 得 到 显著 的 提升 ,从 而 提高 云 计 算 服务 商 的 生产 率 。 

通过 下 面 的 案例 可 以 进一步 说 明 云 计算 对 未 来 社会 生产 率 的 促进 作用 。 

2008 年 3 月 19 日 上 午 10 点 ,美国 国家 档案 馆 公 开 了 和 希拉 里 。 克 林 顿 在 1993 一 2001 
年 作为 第 一 夫人 期 间 的 白宫 日 程 档案 。 由 于 这 些 档案 是 新 闻 记 者 团体 和 独立 调查 机 构 依据 
“信息 自由 法 案 ” 向 国会 多 次 请 愿 才 得 以 公开 的 ,因此 具有 极 高 的 社会 关注 度 与 新 闻 时 效 性 。 
但 是 ,这 些 档案 是 不 可 检索 的 低 质 量 PDF 文件 , 若 想 将 其 转换 为 可 以 检索 并 便于 浏览 的 文 
件 格 式 , 需 要 进行 再 处 理 。 

华盛顿 邮 报 希望 将 这 些 档 案 在 第 一 时 间 上 传 到 因特网 ,以 便 公 众 查询 。 但 是 据 估 算 , 仅 
每 一 页 的 操作 ,以 报社 现 有 的 计算 能 力 就 需要 30 分 钟 。 因 此 ,华盛顿 邮 报 将 这 个 档案 的 转 
换 工 程 交 给 Amazon EC2 (Elastic Compute Cloud), Amazon EC2 同时 使 用 200 个 虚拟 服 
务 器 实例 ,每 个 服务 器 的 单 页 平均 处 理 时 间 都 缩短 为 一 分 钟 ,并 在 9 小 时 内 将 所 有 的 档案 转 
换 完毕 ,以 最 快 的 速度 将 这 些 第 一 手 资 料 呈现 给 读者 。 

这 个 案例 中 ,Amazon 公司 通过 其 EC2 平台 将 计算 资源 打包 提供 给 客户 ,使 报社 在 9 小 
时 内 就 得 到 了 1407 小 时 的 虚拟 服务 器 机 时 ,在 第 一 时 间 内 完成 了 档案 的 转换 ,而 华盛顿 邮 
报 仅 需 要 向 Amazon 公司 支持 144. 62 美元 的 费用 。 

这 个 案例 清楚 地 表述 了 云 计算 服务 商 通 过 规模 化 效应 ,提供 高 弹性 的 资源 服务 能 力 , 资 
源 的 利用 率 较 之 传统 系统 大 幅 提升 ,因此 用 户 可 以 充分 享受 “ 云 ” 的 低 成 本 优势 ,经常 只 要 花 
费 几 百 美元 、 几 天 时 间 就 能 完成 以 前 需要 数 万 美元 、 数 月 时 间 才 能 完成 的 任务 。 如 此 ,会 进 
一 步 推动 云 计 算 应 用 的 发 展 ,从 而 形成 提高 IT 生产 率 , 乃 至 整体 社会 生产 率 的 正 反 馈 。 

综 上 所 述 ,通过 云 计算 的 定义 、 特 点 可 知 , 云 计 算 作为 一 种 新 的 计算 模式 ,通过 虚拟 化 技 
术 实 现 大 规模 的 虚拟 化 资源 池 ,通过 网 络 传递 各 类 虚拟 化 计算 资源 提供 服务 ,用 户 则 通过 网 
络 跨越 地 理 空间 的 限制 ,随时 获取 各 类 计算 资源 。 云 计算 实现 了 计算 资源 的 实现 形态 .计算 
服务 的 应 用 模式 的 根本 性 变革 .因此 可 以 说 , 云 计算 的 到 来 意味 着 信息 产业 面临 着 一 次 新 的 
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革命 。 

由 此 , 云 计算 的 重要 意义 可 见 一 斑 , 因 而 各 国政 府 .IT 产业 界 及 领域 研究 才 会 如 前 文 所 
述 ,对 云 计 算 予 以 高 度 重 视 , 不 惜 投 入 大 量 的 资源 ,以 期 能 在 云 计 算 带 来 的 产业 浪潮 之 中 占 
有 一 席 之 地 。 


2.2.3 云 计 算 名 称 的 来 历 


了 解 云 计算 的 概念 与 内 涵 之 后 ,还 剩 下 最 后 一 个 问题 ,就 是 为 什么 要 起 * 云 "这 个 名 字 ， 
这 个 问题 目前 主要 有 两 个 解释 : 

一 个 是 因为 云 是 无 数 微小 的 水 滴 凝 聚 而 成 ,所 以 以 * 云 "为 名 ,象征 云 计算 模式 下 ,各 类 
软 硬 件 计算 资源 像 微小 的 水 滴 一 样 通过 虚拟 化 技术 聚集 成 宏大 的 计算 资源 中 心 。 

另 一 个 解释 相对 简单 ,来 源 于 因特网 的 部 署 
方案 图 ,如 图 2-2 所 示 。 类 似 的 因特网 系统 部 团 
方案 图 中 ,一 般 使 用 云图 标 来 代表 目标 系统 接 入 
到 目标 系统 外 部 因特网 ,实现 跨 地 域 的 数据 交互。 
虽然 外 部 因特网 包含 大 量 的 复杂 技术 与 基础 设 
备 ,但 都 与 目标 系统 无 关 ,因此 部 署 方案 图 中 使 用 
云图 标 来 进行 抽象 ,只 强调 使 用 外 部 因特网 的 数 
据 交互 服务 ,而 无 须 关 心 外 网 的 结构 与 设施 。 如 
前 文 所 述 , 云 计算 通过 网 络 传递 各 种 计算 资源 ,用 
户 只 需 通过 网 络 来 获取 与 使 用 即 可 ,无 须 关心 去 
计算 中 心 的 设施 与 底层 虚拟 化 技术 ,所 以 因特网 
系统 部 署 方 案 图 中 的 云图 标 正好 契合 了 云 计算 的 。 图 2 ?常见 的 因特网 系统 部 署 图 
核心 特点 ,故而 使 用 * 云 "来 对 这 种 新 计算 模式 
命名 。 

相 较 上 述 两 种 解释 ,结合 本 书 阐述 的 云 计算 发 展 渊源 来 看 ,本 书 作者 认为 后 一 种 解释 更 
为 贴切 一 些 。 


2.3 云 计算 类 型 














从 上 述 云 计算 的 概念 介绍 可 知 , 云 计算 模式 涵盖 的 范围 非常 广 , 从 底层 的 软 硬 件 资源 聚 
集 管理 ,到 虚拟 化 计算 池 乃 至 通过 网 络 提供 各 类 计算 的 服务 。 因 此 ,具体 的 云 计算 系统 具有 
多 种 形态 ,提供 不 同 的 计算 资源 服务 。 

针对 云 计算 系统 可 以 提供 何 种 类 型 的 计算 资源 服务 ,以 服务 类 型 为 划分 标准 ,可 以 将 云 
计算 划分 为 基础 设施 类 ,平台 类 ,应 用 类 三 类 不 同 的 云 计算 系统 ; 以 所 有 权 划 分 ,可 以 分 为 
公共 云 .私有 云 、 混 合 云 三 类 。 


2.3.1 基础 设施 类 
该 类 云 计 算 系 统 通过 网 络 向 企业 或 个 人 提供 各 类 虚拟 化 的 计算 资源 ,包括 虚拟 计算 机 、 
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存储 、 虚 拟 网 络 与 网 络 设备 ,以 及 其 他 应 用 虚拟 化 技术 所 提供 的 相关 功能 。 

这 里 提 及 的 虚拟 化 技术 是 指 通 过 对 真实 的 计算 元 件 进行 抽象 与 模拟 ,虚拟 出 多 个 各 类 
型 的 计算 资源 。 虚 拟 化 技术 可 以 在 一 台 服 务 器 中 虚拟 出 多 个 虚拟 计算 资源 ,也 可 以 使 用 多 
台 服 务 器 虚拟 出 一 个 大 型 的 虚拟 设备 。 例 如 ,一 台 计算 机 中 可 以 虚拟 出 多 个 虚拟 机 ,分 别 安 
装 不 同 的 操作 系统 ,实现 一 台 服 务 器 当 多 台 服 务 器 使 用 ; 也 可 以 将 多 个 存储 设备 虚拟 成 一 
台大 的 存储 服务 器 。 在 基础 设施 类 的 云 计算 系统 中 ,用 户 可 以 远程 操纵 所 有 虚拟 的 计算 资 
源 , 几 乎 接近 于 操作 真实 的 计算 机 硬件 服务 。 

在 基础 设施 类 的 云 计算 系统 中 ,最 为 典型 的 基础 设施 类 云 计算 系统 当 属 亚马逊 虚拟 私 
有 云 (Amazon Virtual Private Cloud,VPC) 服 务 。 亚 马 逊 是 全 球 最 大 的 在 线 图 书 零 售 商 ,在 
发 展 主 营业 务 即 在 线 图 书 零售 的 过 程 中 ,亚马逊 为 支撑 业务 的 发 展 , 在 全 美 部 署 IT 基础 设 
施 ,其 中 包括 存储 服务 器 、 带 宽 、CPU 资源 。 

为 了 充分 支持 业务 的 发 展 ,IT 基础 设施 需要 有 一 定 的 富裕 。2002 年 ,亚马逊 意识 到 闲 
置 资源 的 浪费 ,开始 把 这 部 分 富裕 的 存储 服务 器 .带宽 .CPU 资源 租 给 第 三 方 用 户 。 亚 马 逊 
将 该 云 服 务 命 名 为 亚马逊 网 络 服务 (Amazon Web Services, AWS), 2006 年 年 初 , 亚 马 逊 成 
立 了 网 络 服务 部 门 , 专 为 各 类 企业 提供 云 计算 基础 架构 网 络 服务 平台 ,用 户 ( 包 括 软件 开发 
者 与 企业 ) 可 以 通过 亚马逊 网 络 服务 获得 存储 .带宽 .CPU 资源 ,同时 还 能 获得 其 他 IT 服 
务 , 如 亚马逊 私有 云 (VPC) 等 。 

2010 年 ,AWS 为 亚马逊 带 来 了 5 亿美 元 的 营 收 , 占 亚马逊 342 亿美 元 营 收 总 额 的 约 
1.5%%, 同 时 云 计 算 还 是 亚马逊 增长 最 迅速 的 业务 。2011 年 ,亚马逊 预计 将 使 资本 支出 翻 
番 , 至 8.51 亿美 元 ,并 将 为 零售 业务 建设 更 多 的 数据 中 心 和 数据 仓库 ,同时 为 其 云 服务 做 更 
好 的 准备 。2011 年 第 一 季度 营 收 98. 57 亿美 元 ,同比 增长 38. 2%, 但 营业 利润 下 降 了 
18.2%% , 云 计算 服务 方面 的 投资 增加 是 影响 其 利润 率 的 一 个 重要 因素 。 预 计 AWS 在 2011 
年 的 营 收 最 多 将 为 9 亿美 元 ,而 运营 性 利润 率 将 达到 23 儿 ,将 远 高 于 亚马逊 核心 业务 
的 5%。 

AWS 目前 主要 由 4 块 核心 服务 组 成 : 简单 存储 服务 (Simple Storage Services,S3)、 弹 
性 云 计 算 (Elastic Compute Cloud. EC2) ,简单 排列 服务 (Simple Queuing Services). 以 及 尚 
处 于 测试 阶段 的 Simple DB. AWS 提供 的 服务 非常 简单 易 用 ,主要 应 用 可 以 概括 为 提供 虚 
拟 机 、 在 线 存储 和 数据 库 . 类 似 大 型 机 时 代 的 远程 计算 处 理 及 一 些 辅助 工具 ,其 在 国外 市 场 
环境 比较 成 熟 。 

其 中 ,Amazon EC2 系统 使 用 Xen 虚拟 化 技术 ,利用 Amazon 掌握 的 服务 器 虚拟 出 运算 
能 力 不 同 的 三 个 等 级 虚拟 服务 器 。 然 后 面向 用 户 出 租 虚 拟 服务 器 ,用 户 租 用 这 些 虚拟 服务 
器 之 后 ,可 以 通过 网 络 控制 虚拟 服务 器 ,在 虚拟 服务 器 中 装载 系统 镜像 文件 ,配置 虚拟 服务 
器 中 的 应 用 软件 与 程序 。 亚 马 进 为 用 户 提供 了 非常 简便 的 使 用 方式 : 基于 Web 页 面 ,登录 
即 可 使 用 ; 按 使 用 量 及 时 间 付 费 。 在 这 种 模式 下 ,用 户 可 以 用 非常 低廉 的 价格 获得 计算 及 
存储 资源 ,并 且 可 以 方便 地 扩充 或 缩减 相关 资源 ,有 效 地 应 对 诸如 流量 突然 暴涨 之 类 的 问 
题 。 通 过 网 络 ,用 户 可 以 像 控 制 自 己 本 地 机 器 一 样 使 用 Amazon 提供 的 虚拟 服务 器 ,只 需要 
按 使 用 时 间 来 付出 租 费 用 即 可 。 图 2-3 展示 了 Amazon EC2 的 Web 控制 界面 。 
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图 2-3 Amazon EC2 的 Web 控制 界面 


2.3.2 平台 类 


平台 类 的 云 计 算 系 统 是 向 用 户 提供 包含 应 用 及 服务 开发 .运行 .升级 、 维 护 ,或 者 存储 数 
据 等 服务 的 云 计 算 系 统 。 或 者 简 言 之 ,平台 类 的 云 计算 系统 核心 是 提供 中 间 件 服务 的 云 计 
算 系统 ,用 户 使 用 该 云 计 算 类 型 可 以 调用 中 间 件 提供 的 各 类 服务 ,实现 自己 应 用 的 开发 、 配 
置 . 运 行 。 至 于 应 用 所 需 的 中 间 件 软件 .虚拟 化 服务 器 与 网 络 资源 .应 用 的 负载 平衡 等 维护 
方面 由 平台 类 云 计算 系统 提供 服务 予以 解决 。 

该 类 型 云 计算 系统 的 典型 系统 则 是 Google App Engine(GAE)。Google App Engine 
是 Google 公司 于 2008 年 推出 的 ,面向 用 户 提供 Web 应 用 开发 .运行 支持 等 各 类 服务 。 
GAE 支持 Python、Java 及 其 他 多 种 Web 应 用 开发 语言 ,同时 也 支持 Django, Cherry、 
Pylons 等 Web 应 用 框架 。 开 发 商 可 以 使 用 Google 提供 的 基础 设施 构建 Web 应 用 ,开发 完 
毕 后 再 部 署 到 Google 的 基础 设施 之 上 , 交 由 GAE 托管 ,运行 在 Google 数据 中 心 的 多 个 服 
务 器 之 中 。 由 GAE 负责 应 用 的 集群 部 署 ,监控 及 失效 恢复 ,并 根据 应 用 的 访问 量 和 数据 存 
储 需求 的 变化 而 自动 扩展 。 

Google App Engine 开始 推出 时 是 免费 服务 ,2012 年 9 月 初 ,Google 宣布 作为 云 计 算 
服务 核心 内 容 的 GAE 将 结束 预览 期 ,正式 对 外 收费 服务 。 其 收费 标准 主要 依据 开发 者 的 
使 用 时 间 和 带宽 流量 而 定 。 如 用 户 每 日 App Engine 的 CPU 时 间 不 超过 6.5 小 时 ,发 送 和 
接收 的 数据 不 超过 1GB, 则 可 继续 免费 使 用 该 服务 。 如 超出 上 述 标准 ,超出 部 分 的 费用 按 
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每 CPU 小 时 0. 10 美元 计算 。 每 日 接收 数据 超过 1GB, 超 出 部 分 每 1GB 将 收费 0. 10 美元 ; 
每 日 发 送 数据 超过 1GB, 超 出 部 分 每 1GB 将 收费 0. 12 美元 。 此 外 ,用 户 存储 数据 每 月 将 按 
0.15 美元 /GB 的 标准 收费 ,而 接收 电子 邮件 为 0.0001 美元 / 封 。 

图 2-4 展示 了 GAE 的 Web 控制 界面 。 
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图 2-4 Google App Engine 的 Web 控制 界面 


2.3.3 MAK 


该 类 云 系 统 是 各 用 户 直接 提供 其 所 需 的 软件 服务 。 同 样 ,这 些 服务 是 通过 Web 应 用 方 
式 提供 的 ,用 户 可 以 通过 浏览 器 使 用 网 络 来 远程 登录 到 这 些 软件 服务 的 界面 ,使 用 服务 提供 
的 各 类 软件 功能 。 虽然 用 户 使 用 软件 的 方式 与 现在 的 B/S(Browser/Server, 浏 览 器 /服务 
器 ) 系统 类 似 , 但 是 它们 本 质 上 不 同 ,应 用 类 型 的 云 计算 系统 向 用 户 收费 是 租赁 式 的 ,用 户 根 
据 使 用 的 资源 .时 间 等 标准 付费 , 云 计算 系统 的 产权 归 云 服务 商 , 而 B/S 系统 一 般 是 向 用 户 
整体 打包 出 售 给 用 户 , 产 权 归 用 户 。 

该 类 型 云 计算 系统 的 典型 提供 者 是 Salesforce 公司 , 它 是 创建 于 1999 年 3 月 的 一 家 客 
户 关系 管理 (CRMD) 软 件 服务 提供 商 . 其 品牌 标志 格外 引 人 注 目 ,用 一 个 红色 的 圆 图 和 一 条 
斜 杠 表明 其 * 反 软件 的 态度 ,提倡 “软件 即 服务 "的 概念。 

Salesforce 的 运营 模式 可 以 简单 地 概括 为 "用 网 络 服务 实现 ERP 软件 的 功能 ,用 户 只 需 
要 付 少 许 的 软件 月 租 费 , 以 节约 大 笔 购 买 开支 "。 用 户 购买 了 
Salesforce 的 使 用 权 , 就 可 获得 Salesforce 公司 为 用 户 提 供 的 一 个 
appexchange 目录 ,其 中 储存 了 上 百 个 预先 建立 的 .预先 集成 的 应 用 SalesfOrce 
程序 ,从 经 费 管 理 到 采购 招聘 一 应 俱全 ,用户 可 以 根据 自己 的 需要 
将 这 些 程序 定制 安装 到 自己 的 salesforce 账户 .或 者 根据 需要 对 这 
些 应 用 程序 进行 修改 以 适应 本 公司 的 特定 要 求 .用 户 只 需要 付 少许 ”图 2-5 Salesforce 的 
的 软件 月 租 费 即 可 。 反 软 件 标志 

图 2-5 和 图 2-6 分 别 为 Salesforce 的 反 软 件 标志 及 用 于 产品 交 
易 会 话 记录 分 析 的 界面 。 
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2-6 Salesforce 中 产品 交易 会 话 记录 分 析 的 界 而 


2.3.4 以 所 有 权 划 分 云 计 算 系 统 类 型 


除了 上 述 依据 云 计 算 系统 提供 的 服务 类 型 划分 标准 之 外 ,还 可 以 将 云 计算 系统 的 所 有 
者 与 其 服务 用 户 作为 划分 依据 ,可 以 将 云 计 算 系 统 划 分 为 公共 云 、 私 有 云 、 混 合 云 三 类 。 
其 中 ， 

。 公共 云 (Public Clouds) : 由 服务 供应 商 创 造 各 类 计算 资源 ,诸如 应 用 和 存储 ,社会 公 

众 以 免费 或 按 量 付 费 的 方式 通过 网 络 来 获取 这 些 资源 ,公共 云 运 营 与 维护 完全 由 云 
提供 商 负责 。 
私有 云 (Private Clouds): 某 公司 与 社会 组 织 单独 构建 的 云 计 算 系 统 , 该 组 织 拥有 云 
计算 系统 的 基础 设施 ,并 可 以 控制 在 此 基础 设施 上 部 署 应 用 程序 的 方式 。 私 有 云 可 
部 署 在 组 织 的 防火 墙 内 ,也 可 以 交 由 云 提供 商 进 行 构建 与 托管 。 
混合 云 (Hybrid Cloud): 由 于 信息 安全 方面 的 考虑 , 某 些 组 织 机 构 的 信息 无 法 放置 
在 公共 云 上 ,但 又 希望 能 使 用 公共 云 提供 的 计算 资源 , 则 可 使 用 混合 云 模式 。 可 以 
让 应 用 程序 运行 在 公共 云 上 ,而 最 关键 的 数据 和 敏感 数据 的 应 用 程序 运行 在 私有 云 
上 。 如 此 ,可 以 借助 公共 云 的 高 可 扩展 性 与 私有 云 的 较 高 安全 性 ,可 以 根据 应 用 需 
求 的 不 同和 出 自 节约 成 本 的 考虑 ,在 私有 云 和 公共 云 之 间 灵 活 选择 。 
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2.4 云 计算 商业 模式 


2.4.1 商业 模式 是 云 计 算 的 基石 


云 计算 不 但 是 新 技术 的 结合 ,更 是 一 种 商业 模式 的 创新 。 云 计算 是 以 应 用 来 拉动 ,通过 
应 用 带动 后 台 的 基地 建设 和 整个 社会 服务 的 产业 建设 。 由 于 中 国 经 济 持续 稳定 的 增长 ,中 
国 的 整体 环境 持续 看 好 ,IT 产业 在 中 国 的 发 展 保持 着 一 个 稳定 增长 的 良好 态势 ,满足 了 社 
会 .经 济 发 展 的 需求 ,为 中 国信 息 化 程度 的 加 深 创 造 了 良好 的 外 部 环境 。 在 这 样 的 环境 下 ， 
云 计算 在 中 国 的 高 速 发 展 也 就 顺理成章 ,而 海量 数据 的 爆炸 式 增 长 趋势 更 是 为 云 计算 的 发 
展 推波助澜 。 


2.4.2 云 计算 的 市 场 规模 


云 计 算 引 发 的 大 转变 必 将 产生 巨大 的 市 场 机 遇 。 我 国 云 计 算 、 物 联网 进入 快速 发 展 阶 
段 ,将 产生 巨大 的 应 用 市 场 。2011 年 年 底 , 国 家 发 展 和 改革 委员 会 .财政 部 `. 工 业 和 信息 化 
部 三 部 委 遵 选 了 12 个 云 计算 重点 项 目 ,以 高 达 15 亿 的 专项 基金 予以 支持 。 

根据 赛 迪 2012 年 最 新 的 预测 ,在 未 来 几 年 云 计算 应 用 将 以 政府 .电信 教育 .医疗 、 金 
融 , 石 油 石化 和 电力 等 行业 为 重点 ,在 中 国 市 场 逐步 被 越 来 越 多 的 企业 和 机 构 采 用 ,市 场 规 
模 也 将 从 2010 年 的 167. 31 亿 元 增长 到 2013 年 的 1174. 12 亿 元 ,年 均 复 合 增长 率 达 
91.5%. 

同时 ,数量 巨大 的 网 络 用 户 , 尤 其 是 中 小 型 企业 用 户 为 “ 云 计算 ”在 国内 的 发 展 提供 了 很 
好 的 用 户 基础 , 云 计 算 将 大 幅度 提升 国内 数量 广泛 的 中 小 型 企业 的 电子 化 水 平 ,最 终 提 升 企 
业 的 竞争 力 。 


2.4.3 云 计 算 商业 模式 分 析 


1. 云 计算 产业 链 

云 计算 时 代 的 出 现 使 得 专门 的 云 计 算 服 务 运营 商 负责 提供 数据 机 房 , 软 、 硬 件 设 备 , 系 
统 安装 部 署 、 维 护 等 服务 ,成 为 系统 资源 服务 商 ; 并 将 服务 、 资 源 通 过 虚拟 化 管理 技术 提供 
给 SaaS/PaaS 等 应 用 开发 商 , 提 高 数据 资源 利用 率 ; 为 最 终 用 户 提 供 更 加 便利 的 信息 服务 。 

因此 ,在 云 计算 时 代 , 信 息 产业 将 出 现 整合 。 人 们 的 日 常生 活 中 将 离 不 开 “ 云 ”, 云 服务 
运营 商 将 宽带 、 存 储 、 计 算 能 力作 为 像 人 们 生活 中 的 “水 、 电 ”一 样 提供 给 最 终 用 户 。 云 计算 
产业 链 也 将 由 软 \ 硬 件 制 造 商 一 云 计算 运营 商 一 应 用 开发 商 一 最 终 用 户 组 成 。 

2. 商业 模式 分 析 

在 云 计算 时 代 , 中 国 科技 企业 必须 要 开放 心态 ,积极 拥抱 “ 云 计 算 ”, 并 审核 自身 在 云 计 
算 产 业 链 中 的 定位 ,通过 对 自身 优势 的 不 断 挖掘 ,在 云 计算 时 代 找 到 自己 的 位 置 。 目 前 参与 
“ 云 计算 ”的 企业 大 多 面向 的 客户 是 技术 开发 者 和 大 学 、 研 究 所 及 技术 领先 的 大 型 科技 企业 ， 
这 些 都 还 属于 研究 、 试 用 阶段 。 同 时 ,各 个 云 计算 平台 和 企业 私有 云 之 间 并 没有 形成 统一 的 
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接口 和 数据 管理 协议 ,基本 上 都 属于 小 型 的 分 散 “ 云 ”, 没 有 形成 规模 。 中 小 企业 应 用 云 计算 
技术 还 存在 技术 风险 。 

云 计算 的 商业 模式 在 不 断 地 发 展 和 演化 中 ,但 万 变 不 离 其 宗 的 是 ,一 定 要 捆绑 一 种 符合 
自身 情况 的 盈利 模式 。 至 于 盈利 模式 是 资源 租赁 .服务 租赁 .平台 租赁 ,还 是 资源 管理 .广告 
运营 等 都 不 重要 ,因为 伴随 着 新 技术 的 发 展 , 将 产生 新 的 细 分 市 场 , 将 带 来 巨大 变革 。 但 在 
这 个 过 程 中 ,关键 是 参与 投入 “ 云 计算 ”的 企业 要 盔 利 ,如 果 不 能 一 利 ,任何 新 技术 都 不 能 得 
到 持续 发 展 和 普及 。 

3. 企业 “ 云 ” 中 变 身 

借助 云 计 算 的 强势 ,企业 也 开始 思考 战略 * 变 身 ”。 以 往 传统 云 计算 提供 商 仅仅 停留 在 
卖 产 品 的 层次 上 ,对 于 用 户 的 反应 则 是 不 闻 不 问 。 这 种 “一 锤子 ”买卖 无 疑 将 会 被 淘汰 。 没 
有 改变 就 没有 发 展 ,从 卖 产品 到 卖 服务 的 战略 转型 是 结合 行业 趋势 做 出 的 选择 。 

由 硬件 设备 制造 商 向 信息 技术 服务 商 转 型 ,从 云 计算 开始 ,这 是 未 来 企业 一 个 大 的 战略 
方向 。 在 这 条 路 上 ,企业 在 产业 链 里 面 需 要 一 个 非常 清晰 的 定位 。 随 着 “ 云 模 式 ” 的 逐渐 成 
形 , 从 企业 角度 来 说 ,在 成 本 上 有 很 大 节约 ,更 重要 的 是 灵活 性 增强 ,使 得 企业 不 需要 养 一 支 
很 大 的 IT 支持 团队 。 这 就 是 “ 云 模式 ”所 能 够 带 来 的 最 根本 优势 ,而 且 这 中 间 有 很 大 的 灵 
活性 ,就 像 打 开 电 灯 的 时 候 不 会 关心 电 是 哪个 发 电厂 发 过 来 的 ,未 来 整个 IT"“ 云 模式 ”将 能 
达到 无 所 不 在 的 状态 。 


2.5 本章 小 结 


本 章 介 绍 了 大 数据 和 云 计算 的 关系 、 云 计算 的 概念 云 计 算 的 由 来 \ 云 计算 类 型 . 云 计算 
的 商业 模式 。 

云 计算 结合 大 数据 ,这 是 时 代 发 展 的 必然 趋势 。 云 计算 是 大 数据 处 理 的 基础 ,大 数据 是 
云 计算 的 延伸 。 

2006 年 8 月 9 日 ,“ 云 计算 ”这 个 名 词 由 Google 首席 执行 官 埃 里 克 。 施 密 特 在 搜索 引 
擎 大 会 上 第 一 次 提出 。 

云 计算 作为 一 种 新 的 计算 模式 ,通过 虚拟 化 技术 实现 大 规模 的 虚拟 化 资源 池 , 通 过 网 络 
传递 各 类 虚拟 化 计算 资源 提供 服务 ,用 户 则 通过 网 络 跨 越 地 理 空间 的 限制 ,随时 获取 各 类 计 
算 资 源 。 
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大 数据 正在 催生 以 数据 资产 为 核心 的 多 种 商业 模式 ,产生 巨大 的 应 用 价值 。 数 据 的 生 
成 .分析 、 存 储 ,分 享 、 检 索 、 消 费 构成 了 大 数据 的 生态 系统 ,每 一 个 环节 产生 了 不 同 的 需求 ， 
新 的 需求 又 驱动 技术 创新 和 方法 创新 ,通过 大 数据 技术 融合 社会 应 用 ,让 数据 参与 决策 ,发 
掘 找到 大 数据 真正 有 效 的 价值 ,进而 改变 人 们 未 来 ,革新 生活 模式 ,产生 社会 变化 ,引发 积极 
影响 。 近 年 ,伴随 着 物 联网 膨胀 ,移动 因特网 流行 ,社交 媒体 发 达 , 交 互 式 媒体 快速 发 展 ,大 
数据 展现 其 独 有 的 时 代 特 性 ,广泛 应 用 在 客户 群体 细 分 、 数 据 搜索 ,虚拟 现实 \ 个 性 推荐 、 客 
户 关系 管理 等 方面 ,展现 出 巨大 的 延伸 价值 , 越 来 越 成 为 时 代 焦 点 ,引起 人 们 关注 ,如 图 3-1 








图 3-1 大 数据 应 用 价值 
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3.1 大 数据 在 电子 商务 中 的 应 用 


电子 商务 发 展 最 关键 的 是 信息 流 、 物 流 及 资金 流 , 由 此 ,电子 商务 的 发 展 也 带动 了 许多 
行业 的 发 展 ,以 及 新 兴业 态 的 兴起 ,例如 支付 宝 、 微 信 钱 包 、 快 钱 等 第 三 方 支付 及 快递 行业 。 


3.1.1 大 数据 是 电子 商务 发 展 要 素 


随 着 企业 处 理 的 数据 量 迅 速 变 大 ,处 理 速 度 飞 快 提升 ,数据 处 理工 具 的 智能 化 程度 提 
高 ,价格 日 益 实 惠 ,许多 大 型 电子 商务 公司 已 经 把 大 数据 分 析 看 成 一 项 必 不 可 少 的 工作 内 
容 , 灵 活 运用 各 项 数据 分 析 手 段 , 提炼 商 业 智 能 已 经 成 为 电子 商务 企业 在 大 数据 时 代 背 景 下 
的 一 项 必修 课 。 

电子 商务 企业 需要 分 析 其 核心 业务 数据 及 其 不 断 增 大 的 规模 ,不 能 凭 直觉 制定 关键 决 
策 , 最 好 分 析 所 有 与 客户 相关 的 业务 数据 以 留 住 现 有 客户 ,吸引 他 们 ,同时 赢得 更 多 新 客户 
购买 更 多 的 商品 。 企 业 应 对 基础 设施 和 软件 进行 投资 ,运用 相应 算法 处 理 大 数据 ,了 解 消费 
者 情绪 ,优化 供应 链 , 去 除 虚假 数据 。 为 此 ,聘请 数据 科学 家 完成 相应 工作 ,只 有 对 数据 进行 
压缩 处 理 并 智能 地 展现 与 特定 内 容 相 关 的 数据 ,大 数据 才能 更 好 地 利用 。 

非常 庞大 的 数据 集 往往 很 难 用 传统 的 数据 库 管理 工具 进行 处 理 , 这 些 数 据 包括 访问 网 
页 .登录 、 在 线 交 易 等 ,企业 应 使 用 相应 工具 对 数据 进行 压缩 和 筛选 ,实施 大 数据 策略 , 仅 展 
现 与 特定 内 容 相关 的 数据 。 大 数据 通过 捕捉、 存储 和 分 析 用 户 在 社交 媒体 上 发 表 的 售后 体 
验 ,改变 业务 模式 ,可 以 提高 质量 ,改进 服务 。 企 业 不 仅 应 捕捉 、 存 储 大 数据 ,还 应 开发 .利用 
大 数据 ,因为 只 有 开发 .利用 大 数据 ,才能 挖掘 出 大 数据 蕴藏 的 巨大 价值 ,特别 是 应 使 用 专门 
工具 分 析 和 开发 杂乱 的 非 结 构 化 的 数据 。 根 据 个 人 或 消费 群体 的 喜好 或 者 消费 行为 分 析 和 
细 分 市 场 ,提供 富有 个 性 化 的 产品 ,营销 部 门 收集 一 些 有 价值 的 信息 来 找 出 购物 者 的 兴趣 所 
在 ,然后 组 织 一 些 有 针对 性 的 营销 活动 ,从 而 在 竞争 中 增加 企业 优势 。 

电 商 公司 除了 要 关注 大 数据 工具 的 运用 之 外 ,真正 应 该 注意 的 是 情报 数据 ,从 日 常 的 工 
作 来 看 ,情报 数据 处 理 人 员 出 去 收集 情报 的 工作 占 了 多 数 时 间 。 他 们 会 跟 上 下 游 供应 链 进 
行 跨 部 门 沟通 。 虽 然 这 些 情 报 数据 性 不 强 ,但 价值 十 分 高 。 电 子 商务 企业 在 有 海量 数据 积 
累 的 基础 上 ,还 要 有 一 套 按照 公司 需求 定制 的 优秀 系统 才 可 能 实现 大 数据 ,在 销售 记录 屡 创 
新 高 的 同时 ,电子 商务 的 利润 率 得 到 增长 ,实现 销量 与 利润 率 双 增 长 。 


3.1.2 电子 商务 大 数据 的 实用 措施 


经 过 处 理 的 大 数据 分 析 能 给 企业 带 来 效益 ,提供 增 量 价值 ,大 数据 只 有 带 来 实 实在 在 的 效 
益 才 会 被 商家 接受 ,效益 是 大 数据 的 根本 要 素 , 商 家 承诺 产品 与 服务 ,消费 者 获得 好 的 体验 和 
价值 ,商家 才能 最 终 获 得 可 观 的 销量 和 实在 的 利益 。 数 据 可 靠 性 是 分 析 大 数据 的 前 提 , 大 数据 
的 价值 潜力 来 自 于 机 器 学 习 , 大 数据 在 经 济 上 的 应 用 依赖 规模 效应 ,商家 需要 具有 大 数据 理 
念 ,主动 开发 大 数据 的 价值 ,大 数据 就 成 为 竞争 的 主要 工具 ,利用 大 数据 可 以 提高 品牌 忠诚 度 。 

商家 可 以 利用 已 有 品牌 建立 互动 的 网 络 社交 平台 ,成 立 网 络 社区 ,改善 商业 网 站 ,在 商 
家 的 社区 网 站 中 消费 者 与 企业 员工 及 其 他 消费 者 互动 ,如 果 得 到 反馈 ,这 种 网 络 之 间 的 人 际 
沟通 会 带 来 对 品牌 的 好 感 ,这 种 行为 促使 消费 者 增进 对 品牌 的 归属 感 ,产生 信赖 的 感觉 ,社交 
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平台 促使 商家 赢得 市 场 ,刺激 消费 者 增进 支出 ,效果 超过 传统 模式 ,有 利于 商家 进行 宣传 活动 。 
大 数据 实现 市 场 的 规模 效应 ,反映 社会 


性 活动 ,消费 者 被 网 络 社区 聚集 成 一 个 拥有 
天 猫 / 共性 的 消费 群体 ,网 络 社交 行为 进一步 提高 ， 
网 络 互动 变 成 惯性 ,网 络 社交 接近 现实 社会 
行为 ,如 图 3-2 所 示 。 商 家 通过 品牌 网 站 举 
行 活动 模拟 生活 或 是 直接 将 线 上 活动 与 现实 
中 的 商品 关联 起 来 ,网 上 的 潜在 消费 者 会 产 
生 强 烈 的 购买 欲 , 这 种 感觉 直接 导致 购买 行 
为 的 发 生 。 

大 数据 不 是 将 商品 打扮 成 大 众 形象 ,而 
是 采集 数据 促使 商家 开发 创新 ,找到 适合 
商品 营销 方式 。 帮 助 商家 个 性 化 生产 商品 ,精确 区 分 消费 者 群体 。 大 数据 反映 消费 者 的 需 
求 ,深入 挖掘 就 可 以 更 好 地 预测 销售 结果 ,采取 有 效 地 商业 行为 。 


3.1.3 电子 商务 大 数据 的 转型 路 径 


L 电子 商务 大 数据 的 发 展 趋势 

无 论 是 传统 的 IT 企业 还 是 典型 的 因特网 企业 都 在 调整 自己 的 战略 ,把 业务 延伸 到 大 
数据 领域 ,大 数据 更 是 电子 商务 企业 的 生命 线 。 大 数据 对 电子 商务 发 展 的 影响 有 如 下 方面 ， 

(1) 数据 将 成 为 企业 的 核心 竞争 力 和 核心 资产 。 拥 有 庞大 的 数据 或 者 拥有 分 析 、 挖 据 
数据 传输 数据 的 能 力 都 是 企业 竞争 力 的 主要 来 源 。 

(2) 跨 界 融合 将 成 为 普遍 趋势 。 跨 界 融 合 既 包 括 跨 媒 体 , 跨 行业 、 跨 地 域 .跨国 界 经 营 
的 横向 跨 界 ,也 包括 平台 衍生 内 容 服务 的 全 产业 链 要 素 的 纵向 跨 界 。 通 信 内 容 、 消 费 者 、 计 
算 机 具有 融合 趋势 , IT 产业 由 * 内 容 驱 动 硬件 增长 "的 模式 向 “内 容 -软件 -硬件 ”的 一 体 化 发 
展 。 苹 果 公司 从 创意 设计 到 平台 、 内 容 , 终 端 都 是 一 体 化 运营 ,行业 的 边界 日 益 模糊 ,融合 成 
为 基本 趋势 。 

(3) 无 边界 娱乐 成 为 基本 生活 样 态 。 大 数据 大 大 地 改变 了 人 们 的 生活 方式 ,扩展 了 娱 
乐 的 范围 ,造就 了 互动 性 强 的 无 边界 娱乐 。 无 边界 娱乐 使 人们 不 受 时 间 和 空间 的 限制 娱乐 ， 
移动 因特网 时 代 时 间 和 空间 完全 被 打破 ,交互 性 超 强 , 更 满足 了 娱乐 无 边界 的 需求 。 在 娱乐 
无 边界 的 时 代 , 无 论 是 网 络 创作 传播, 消费、 阅读 ,还 是 网 络 购物 ,时尚 电子 产品 ,青少年 是 
主流 消费 者 。 

2. 电子 商务 转型 升级 的 基本 方向 

电子 商务 需要 在 这 个 大 趋势 之 下 转型 升级 ,大 数据 .社交 媒 体 、 云 计算 .文化 产业 的 相互 
联动 能 够 促进 电子 商务 的 转型 升级 ,将 会 给 电子 商务 带 来 新 的 机 遇 。 电 子 商 务 转型 升级 的 
基本 方向 具体 有 如 下 几 个 方面 ， 

(1) 由 销量 制胜 到 数据 制胜 。 在 发 展 的 初级 阶段 电子 商务 强调 销量 .人 气 ,到 了 高 级 阶 
段 聚 集 庞大 的 数据 成 为 主要 方面 ,销量 制胜 转变 为 数据 制胜 。 亚 马 逊 公司 市 值 能 达到 
1500 亿 , 一 直 在 行业 里 面 遥遥 领先 是 与 庞大 的 数据 积累 有 密切 关联 的 。 电 子 商 务 公司 可 以 









图 3-2 消费 者 行为 数据 
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将 数据 实现 规模 化 ,更 大 程度 地 增加 用 户 黏度 。 

(2) 由 规模 化 制造 走向 规模 化 定制 。 制 造 和 定制 是 截然 相反 的 ,定制 与 制造 反 向 ,是 按 
顾客 需要 销售 的 。 大 数据 时 代 通 过 机 器 学 习 , 这 些 因特网 企业 主要 研究 人 类 生活 方式 的 变 
化 ,包括 购买 习惯 和 购买 偏好 ,并 满足 这 些 个 性 化 需求 。 制 造 类 企业 或 服务 类 企业 解决 了 原 
来 个 性 化 需求 和 大 规模 制造 之 间 的 矛盾 ,提供 更 有 效 的 解决 方案 。 在 大 规模 定制 的 情况 下 ， 
下 一 步 电 子 商 务 平台 可 能 会 成 为 所 有 制造 类 和 服务 类 企业 的 整合 者 ,也 就 成 为 标准 的 制定 
者 。 三 流 的 企业 做 产品 ,二 流 的 企业 做 品牌 ,一 流 的 企业 做 标准 ,通过 大 数据 电子 商务 平台 
进行 分 析 能 够 预测 产业 的 趋势 和 潮流 ,然后 通过 标准 和 设计 研发 及 订单 的 方式 定制 产品 , 占 
据 价 值 链 高 端 。 

(3) 由 平台 为 主 到 综合 内 容 与 平台 。 现 在 人 们 的 生活 方式 变 为 娱乐 休闲、 购物 一 体 
化 ,电子 商务 企业 业务 发 展 就 要 考虑 变化 ,还 要 提供 休闲 娱乐 ,视频 .音乐 ,购物 .金融 服务 等 
综合 业务 ,提升 方向 就 是 形成 综合 体验 价值 。 

(4) 由 资产 并 购 到 数据 整合 。 现 在 围绕 大 数据 的 整合 并 购 加 速 , 阿 里 入 股 新 浪 微 博 , 百 
度 收 购 PPS, 都 是 平台 企业 收购 内 容 企 业 , 以 实现 内 容 和 平台 的 综合 化 ,并 购 的 外 在 形式 是 
资产 .股权 的 重组 ,实际 数据 资源 的 共享 、 数 据 规模 的 扩展 是 其 内 在 的 本 质 。 

(5) 电子 商务 由 PC 端 逐步 转变 到 手机 端 。 从 中 国 互联 网 络 信息 中 心 的 研究 可 以 看 到 ， 
手机 网 民 的 规模 持续 上 升 ,2013 年 6 月 底 达 到 78.5%. be PC 要 高 接近 10 个 百分点 ,手机 
下 一 步 可 能 成 为 信息 中 心 , 特 别 是 手机 在 4G/5G 推动 之 下 会 有 更 多 的 创新 。 从 总 体 趋势 来 
说 ,手机 将 成 为 最 大 的 媒体 终端 娱乐 消费 终端 购物 终端 。 

(6) 商业 模式 由 复制 到 扩展 。 判 断 数据 价值 ,实现 同一 组 数据 无 限 再 利用 是 一 个 主要 
的 方式 ,复制 是 手段 ,扩展 才 是 目的 ,而 扩展 包含 着 实现 企业 线 上 、 线 下 整合 ,物理 平台 和 虚 
拟 平台 的 联动 ,最 后 实现 企业 整体 价值 最 大 化 ,复制 业务 模式 实现 企业 的 扩展 。 网 上 银行 趋 
势 是 不 可 逆转 的 ,对 传统 银行 会 造成 巨大 的 冲击 ,大 数据 分 析 能 力 、 信 用 体系 .透明 度 、 低 成 
本 都 显示 了 超 强 的 竞争 力 。 货 币 的 生命 力 不 在 于 它 是 否 虚拟 ,关键 在 于 背后 有 没有 强 有 力 
的 信用 体系 的 支撑 ,电子 商务 平台 也 有 可 能 发 行 虚拟 货币 。 


3.2 大 数据 在 金融 的 应 用 


大 数据 金融 是 指 依托 于 海量 、 非 机 构 化 的 数据 ,通过 因特网 、 云 计算 等 信息 化 方式 ,对 数 
据 进 行 专业 化 的 挖掘 和 分 析 , 并 与 传统 金融 服务 相 结合 ,开展 相关 资金 融通 工作 。 可 划分 为 
平台 模式 和 供应 链 金 融 模式 。 大 数据 金融 模式 需要 两 项 能 力 ,一 是 大 数据 分 析 的 能 力 ; 二 
是 数据 来 源 的 合法 性 、 持 续 性 能 力 。 


3.2.1 大 数据 金融 的 提出 


1. 大 数据 金融 的 兴起 

社交 网 络 推动 移动 支付 ,大 数据 伴随 云 计算 ,因特网 信息 带 来 大 数据 技术 的 发 展 ,第 三 
方 支付 提高 信誉 ,B2B 和 网 络 贷款 日 益 增 加 ,金融 机 构建 立 线 上 平台 模式 ,传统 金融 吸收 因 
特 网 技术 ,电子 商务 融合 社交 网 络 , 发 展 亮点 不 一 而 足 ,纷繁 的 大 数据 金融 借助 移动 因特网 ， 
共同 创造 出 新 的 价值 , 比 传 统 金 融 业 更 加 透明 ,具有 更 强 的 参与 度 ,更 高 的 协调 性 ,更 低 的 中 
间 成 本 ,更 方便 的 操作 性 ,成 为 更 便捷 的 新 兴 人 金融 模式 。 











大 数据 云 服务 技术 架构 与 实践 





大 数据 金融 具有 革命 性 ,今后 发 展 速度 必然 具有 加 速 趋 势 , 网 络 先天 具有 开放 性 ,导致 
多 边 性 ,进而 提升 生产 力 , 有 效 影 响 人 类 生活 ,影响 其 他 产业 ,力量 强大 ,信息 技术 不 断 革新 ， 
渗透 人 类 其 他 领域 的 各 种 活动 ,不 仅仅 是 社会 的 物质 基础 ,更 从 根本 上 改变 了 人 们 对 时 间 和 
空间 的 看 法 。 

大 数据 金融 离 不 开 电子 商务 的 发 展 。 近 年 来 ,中 国电 子 商务 飞速 发 展 ,势头 十 分 迅猛 。 
据 统计 ,2012 年 我 国 全 部 电子 交易 高 达 8. 1 万 亿 , 增 长 速度 达到 30%。 网 络 零 售 发 展 更 快 ， 
2012 年 共有 1. 3 万 亿 , 同 比 提高 67% 。 金 融 依赖 商务 需求 ,商业 就 要 交易 ,交易 通过 支付 ， 
支付 越 来 越 靠 大 数据 支撑 ,融资 需求 实现 闭环 发 展 。 电 子 商务 的 高 速 发 展 促进 生态 链 不 断 
整合 完善 。 电 子 商务 生态 链 的 发 展 建设 日 益 规范 ,融合 平台 、 虚 拟 服务 .专业 营销 精准 支 
付 、 网 络 金融 .服务 供应 链 化 、 物 流 智 慧 化 、 终 端 移动 化 ,最 终 形成 大 数据 金融 。 

电子 商务 获得 大 众 关 注 的 阿里 巴巴 大 力 推进 因特网 金融 ,其 他 因特网 企业 随 之 跟 进 。 
2013 年 6 月 13 日 ,阿里 巴巴 推出 “余额 宝 ”, 不 到 两 个 月 达到 250 亿 元 。2013 年 7 月 ,新 浪 
建立 " 微 银行 ”; 8 月 腾讯 实现 微 信 5.0 版 与 “ 财 付 通 ” 的 结合 。 其 他 大 大 小 小 、 形 形 色色 的 企 
业 都 在 拥抱 大 数据 金融 。 
因特网 企业 逐渐 进入 金融 领域 ,不 是 仅仅 依靠 技术 ,而 是 利用 和 依赖 数据 。 网 络 服务 商 

合 已 经 拥有 的 大 数据 ,通过 必要 的 信息 技术 ,准确 进行 预测 ,提前 掌握 消费 者 ,把 握 其 习惯 

行为 ,推断 未 来 发 展 趋势 。 大 数据 先天 具有 共通 金融 的 本 质 属性 ,设计 金融 产品 ,通过 采集 
各 种 数据 ,计算 各 种 组 合 , 实 现 数量 匹配 ,得 出 风险 定价 ,经 过 网 上 支付 ,建设 大 数据 金融 的 
基础 与 核心 过 程 。 

银行 应 用 大 数据 分 析 直 接 监控 企业 运营 ,掌握 企业 经 营 状 况 , 评 估 企 业经 营 风险 ,解决 
有 具体 贷款 难题 ,实现 全 程 跟 踪 服 务 , 最 大 限度 降低 资金 风险 ,缓解 企业 面临 的 困难 ,为 企业 迅 
速 实 现 商业 价值 ,增进 服务 用 户 价值 。 余 额 宝 的 发 明 是 一 个 创新 , 极 大 地 促进 了 大 数据 金融 
飞速 发 展 , 依 靠 因特网 ,采取 优势 方法 采集 大 量 全 面 的 数据 ,利用 新 的 大 数据 的 思维 ,进一步 
促使 传统 金融 业 不 断 革新 。 因 特 网 公司 采取 创新 方式 ,通过 免费 手段 吸引 关注 ,迅速 聚集 了 
一 大 批 具 有 高 度 品牌 黏 性 的 新 用 户 , 一 旦 客户 习惯 获得 免费 服务 ,因特网 公司 就 会 获得 收 
益 , 可 以 采集 相关 数据 ,不 断 快速 储存 ,加 强 交互 联系 ,形成 一 个 源源 不 断 持续 可 靠 的 大 数据 
来 源 ,产生 新 的 商业 模式 ,满足 客户 需求 ,大 数据 金融 进行 实时 分 析 , 马 上 获得 结果 ,立刻 设 
计 出 相应 产品 ,对 客户 进行 精准 营销 。 传 统 金融 几乎 难以 想象 ,不 可 能 做 到 。 大 数据 金融 完 
全 可 以 实现 给 客户 提供 完全 个 性 化 的 服务 ,推行 适合 的 量 身 订 做 的 各 类 产品 ,让 客户 享受 产 
品 价值 ,有 大 幅 的 直接 提升 ,从 而 实现 利润 和 因特网 公司 的 持续 一 利 。 因 特 网 公司 不 仅仅 早 
期 为 企业 提前 提供 增值 服务 ,现在 还 可 以 从 网 络 支 付 到 下 一 步 的 社会 融资 ,大 胆 开辟 新 型 的 
大 数据 金融 发 展 道路 。 这 其 中 不 间断 的 每 一 次 进步 都 依靠 大 数据 的 全 面 应 用 和 大 量 支持 。 
图 3-3 展示 了 以 客户 为 中 心 的 大 数据 金融 ,图 3-4 所 示 为 大 数据 金融 用 户 分 析 。 

2. 大 数据 金融 的 发 展 

目前 来 看 ,大 数据 金融 的 服务 主要 应 用 在 广大 电子 商务 领域 ,大 多 数 应 用 项 目的 业务 经 
验 是 依靠 分 析 己 有 的 结构 化 数据 。 但 是 以 后 金融 业 的 前 景 更 多 面 对 非 结构 化 数据 ,将 需要 
处 理 难 以 想象 的 海量 数据 。 信 息 量 膨胀 ,信息 大 爆炸 越 来 越 突出 ,银行 决策 系统 必须 改进 ， 
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大 数据 时 代 的 金融 应 用 框架 : 银行 版 
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以 客户 为 中 心 的 大 数据 金融 


图 3-3 


才能 整合 处 理 多 样 化 业务 。 银 行业 建设 大 数据 平台 要 易 用 ,提供 系统 方案 ,结合 原 系统 , 满 
足 可 拓展 性 ,需要 全 面 集成 已 有 沉淀 数据 ,延伸 多 种 功能 ,有 效 解决 问题 ,完善 原 有 数据 仓 
库 。 建 立 银行 大 数据 中 心平 台 , 不 仅 解决 数据 集成 ,还 能 系统 集成 大 数据 ,提供 企业 业务 方 
案 , 实 现 高 性 能 ,解决 高 速度 ,实现 大 数据 分 析 平台 ,建立 智能 决策 体系 ,实时 整合 所 有 功能 ， 
组 织 所 有 系统 。 

金融 行业 不 断 发 展 , 用 户 量 持续 扩大 ,银行 业务 多 元 ,数据 规模 增长 ,为 了 实现 数据 监 
控 , 需 要 跨 系 统 数据 传输 ,跨行 业 整 合 数据 ,并 进行 快速 分 析 , 得 出 有 效 方案 。 银 行业 必须 保 
证 大 数据 的 真实 性 ,才能 进一步 应 用 数据 挖掘 功能 ,进行 高 级 分 析 , 提 供 决 策 支 持 体系 ,实时 
快速 处 理 银行 各 种 各 样 的 静态 及 动态 数据 ,通过 可 视 化 工具 为 企业 展示 ,进行 评估 ,提供 决 
策 帮助 ,预测 未 来 前 景 。 这 是 大 数据 金融 的 力量 源泉 。 电 子 商务 、 电 信人 金 融 三 大 领域 是 目 
前 应 用 大 数据 比较 快 的 ,不 断 优 化 增长 ,处 理 交 易 行为 ,时 时 监测 用 户 心理 ,及 时 证 券 营销 。 
电子 商务 拥有 成 功 经 验 , 银 行 大 数据 项 目 可 以 借鉴 学 习 。 而 今 , 阿 里 网 络 金融 再 度 启动 创新 
模式 ,应 用 大 数据 技术 ,改变 金融 业 传统 理念 。 如 阿里 提出 ,针对 买 家 发 行 虚拟 信用 卡 , 基 于 
海量 用 户 交 易 记录 ,建立 有 效 信用 机 制 , 用 于 网 上 购物 与 支付 ,已 经 超过 8000 万 用 户 , 带 来 
巨大 市 场 利 润 , 潜 力 非 常 雄厚 。 行 业 不 同 ,需求 有 差异 ,关键 在 于 构建 大 数据 平台 ,实时 适应 
行业 应 用 。 目 前 ,金融 信息 化 迫在眉睫 ,关键 在 于 快速 处 理 海量 数据 的 技术 性 能 ,建设 系统 ， 
注重 用 户 体验 ,重视 业务 系统 , 抓 好 业务 办 理 , 实 时 传递 各 种 数据 ,提高 社会 效率 。 目 前 急需 
解决 金融 行业 的 数据 隔膜 ,信息 分 散 就 会 导致 计算 资源 浪费 ,利用 率 极 低 。 快 速 扩展 大 数据 
业务 ,需要 马上 实现 平台 交付 ,需要 实现 客户 数据 集成 平台 ,应 用 决策 分 析 系 统 ,处 理 分 析 图 
像 及 视频 等 非 结构 性 数据 , 必 将 成 为 大 数据 应 用 的 前 进 方向 。 
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3. 大 数据 金融 的 应 用 

面 对 海 量 数据 做 出 分 析 是 大 数据 平台 的 目标 ,金融 行业 需要 大 数据 ,核心 价值 在 于 共 
享 ,数据 可 视 化 的 发 展 应 用 扩展 了 传统 商业 的 视野 ,应 用 图 形 分 析 增 加 直观 性 ,更 加 方便 地 
发 现 数据 特征 ,进而 帮助 其 他 数据 分 析 人 员 抓 住 时 机 ,及 时 操作 。 

过 去 银行 里 的 客户 经 理 是 被 动 的 ,盲目 等 待 客户 上 门 ,其 模式 难以 为 继 。 现 在 银行 业 大 
不 一 样 ,开始 主动 发 掘 用户 的 不 同 偏好 ,有 针对 性 地 积极 提供 各 种 营销 服务 ,例如 中 信和 银行 
主动 采用 最 新 的 Green plum 系统 ,实现 实时 营销 ,已 经 降低 数 千 万 成 本 。 大 数据 拥有 巨大 
商业 价值 ,体现 在 如 下 方面 : 一 是 快速 定位 ,找到 高 价值 客户 群体 ,挖掘 高 潜力 客户 集群 , 实 
现 对 金融 产品 的 准确 营销 ; 二 是 利用 新 型 的 高 性 能 挖掘 技术 ,进行 反 欺 诈 商 业 分 析 , 避 免 企 
业 各 种 运营 风险 。 银 行业 历史 产生 的 数据 巨大 ,采集 存储, 管理 数据 需要 分 析 ,应 用 大 数据 
工具 可 以 解决 金融 行业 用 户 的 特有 需要 ,控制 种 种 风险 。 

实现 大 数据 应 用 ,关键 在 于 实时 获取 各 种 非 结构 化 数据 流 , 持 续 采 集 大 数 据 , 并 汇总 集 
中 到 数据 中 心 ,使 用 有 效 技术 技能 和 相关 数学 工具 来 分 析 思 考 大 数据 ,实现 实时 利用 共享 ， 
支持 业务 决策 。 大 数据 平台 一 般 采 用 分 布 式 处 理 , 以 便 快速 定位 。 结 合 相 应 数据 知识 ,推动 
行业 开发 应 用 是 驱动 大 数据 发 展 的 最 大 力量 。 

大 数据 迫使 银行 和 电信 业 提 升 现 有 业务 能 力 , 实 现 应 用 目标 ,还 需要 利用 新 的 技术 , 规 
划 需 求 ,接受 数据 体系 ,并 开发 相应 的 战略 处 理 海量 的 流 数 据 , 捕 捉 服务 信息 流 数据 ,进行 实 
时 分 析 ,提高 服务 质量 。 除 了 技术 创新 外 ,善于 利用 行业 经 验 是 金融 IT 企业 解决 问题 的 关 
键 。 各 行 各 业 同 步 发 展 共享 数据 ,健全 完善 国家 法 律 法 规 , 构 建 合理 的 商业 模式 都 同样 重 
要 ,会 产生 无 比 巨 大 的 社会 价值 。 中 国 银监会 设立 金融 消费 者 保护 局 ,有 力 地 保障 大 数据 金 
融 的 发 展 。 在 国外 ,消费 者 金融 (Consumer Financial) 可 以 帮助 客户 ,提供 丰富 便利 的 大 数 
据 应 用 服务 ,如 对 客户 交易 日 志 实施 实时 检测 ,进行 债权 现状 分 析 , 据 此 实现 客户 分 类 ,提供 
系统 评分 ,预测 客户 未 来 行为 ,实现 个 性 精准 营销 ,避免 出 现 坏账 。 而 金融 管理 部 门 及 时 把 
TRE AAR AS ,提供 有 效 监督 ,做 出 预测 分 析 。 

4. 大 数据 金融 的 理念 

大 数据 的 核心 精神 是 公开 .透明 ,因特网 金融 将 彻底 改变 传统 金融 业 , 从 封闭 僵化 走向 
合作 开放 。 因 特 网 支付 行业 已 经 出 现 支付 宝 等 各 种 不 同 的 公司 ,各 方 选择 不 一 样 的 服务 对 
象 ,提供 形形色色 的 不 同 服务 模式 。 大 数据 金融 对 行业 进行 高 度 细 分 ,提供 差异 服务 ,从 业 
者 需要 设法 突出 特色 ,提升 自身 效率 ,大 力 改善 服务 质量 ,才能 占领 大 量 市 场 。 

传统 金融 业 系统 封闭 ,思维 僵化 ,只 能 服务 少数 客户 。 目 前 中 国 金融 体系 机 构 单一 ,过 
于 庞大 ,无 法 及 时 满足 百姓 需求 。 大 数据 金融 通过 采集 数据 实时 分 析 , 有 效 降低 金融 服务 成 
本 ,创造 了 金融 服务 的 新 模式 。 

现在 银行 业 面临 发 展 困境 ,大 企业 风险 较 小 ,但 机 制 呆板 ; 小 企业 利率 较 高 ,但 风险 太 
大 。 大 数据 金融 充分 掌握 信息 ,公开 透明 及 时 披露 ,挖掘 数据 评估 风险 ,合理 定价 约束 双方 ， 
解决 信贷 难题 。P2P 网 贷 的 欣欣 向 荣 很 好 地 体现 了 大 数据 金融 的 发 展 前 景 。 大 数据 金融 潜 
力 巨 大 ,前 景 广阔 ,政府 应 该 全 力 支持 大 数据 金融 的 发 展 ,大 力 培育 良好 的 社会 环境 ,创造 有 
力 的 因特网 金融 生态 环境 ; 规划 发 展 环节 ,呵护 因特网 金融 集聚 期 ,扶持 一 批 因特网 小 额 信 
贷 公司 ,在线 保险 公司 、 发 展 因特网 担保 公司 和 第 三 方 支付 机 构 , 支 持 电子 保单 .因特网 
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P2P、 因 特 网 征 信 等 。 与 此 同时 ,也 要 做 好 风险 控制 与 安全 管理 ,打击 因特网 金融 欺诈 ,防范 
因特网 金融 犯罪 ,推动 大 数据 金融 发 展 , 搞 好 金融 建设 ,打造 一 个 经 济 发 展 的 新 亮点 和 增 
长 点 。 

大 数据 金融 繁荣 需要 各 方面 努力 ,第 一 要 充分 重视 、 密 切 关注 移动 互联 高 速 发 展 的 明显 
趋势 ; 第 二 是 加 大 强化 大 数据 的 社会 价值 与 社会 应 用 ; 第 三 务必 要 加 大 建设 力度 ,整合 因 
竺 网 产业 链 平台 ,因为 任何 产业 升级 必然 沿 着 全 球 产 业 链 延伸 。 利 用 全 球 化 、 信 息 化 推动 信 
息 产 业 升级 ,因特网 的 突出 作用 只 会 越 来 越 明 显 , 越 来 越 重 要 。 沿 着 产业 链 进行 产业 升级 关 
键 离 不 开 大 数据 金融 ,所 以 发 展 产 业 链 必 将 引起 大 数据 金融 的 日 益 繁荣 。 大 数据 金融 时 代 
的 产业 链 整 合 是 高 度 细 分 、 去 中 心 化 的 ,所 有 参与 者 都 是 主体 ,都 能 够 找到 自己 的 位 置 ,从 而 
可 以 实现 更 好 的 发 展 ,更 好 的 服务 产业 。 


3.2.2 大 数据 金融 的 功能 


与 传统 金融 不 同 ,大 数据 金融 不 仅 可 以 带 来 金融 服务 ,还 直接 促进 产品 创新 ,以 及 实现 
用 户 体验 的 舒适 变化 ,不 断 创造 新 的 经 营 管理 模式 和 业务 处 理 方法 ,明显 改善 金融 服务 提供 
商 的 组 织 结构 ,根据 用 户 特征 预测 数据 需求 与 管理 模式 ,增加 产品 创新 力 来 源 ,提高 信用 , 影 
响 风险 特征 等 ,显著 丰富 了 金融 体系 的 多 样 性 ,增进 了 金融 监管 和 宏观 调控 等 方面 的 复杂 
性 ,也 提出 了 新 的 课题 。 

L 重组 实体 经 济 

金融 机 构 中 ,无 论 哪个 部 门 都 在 持续 不 断 采集 ,积累 大 量 数据 ,如 抵押 贷款 部 门 采集 海 
量 的 贷款 客户 的 数据 ,储存 并 实施 处 理 能 充分 描述 其 特征 ; 从 全 球 看 ,债券 外汇、 货币 和 上 股 
票 及 衍生 品 交易 部 门 能 收集 各 种 各 样 影响 资产 价格 不 断 变化 的 海量 信息 ,并 试图 建立 可 以 
使 用 的 前 瞻 性 模型 ， 银行 零售 部 门 实时 收集 和 分 析 客 户 行为 信息 ; 客户 交易 、 研 发. 市场 开 
发 或 服务 运营 等 各 个 部 门 也 隐藏 了 无 数 数据 可 以 控 据 出 巨大 价值 。 但 是 由 于 缺乏 跨 部 门路 
行业 的 沟通 战略 ,各 部 门 已 有 的 大 数据 分 析 技 术 不 足 , 难 以 深刻 了 解 不 同 地 区 人 金融 市 场 之 间 
的 复杂 关系 ,妨碍 了 信息 的 流通 和 及 时 利用 。 

为 了 打破 这 样 的 壁 侄 ,一 些 企业 正 主动 出 击 ,试图 直接 推动 整合 跨 职 能 部 门 的 数据 ,其 
至 寻求 办 法 获得 外 部 供应 商 及 其 客户 的 外 部 信息 。 例 如 ,美国 纽约 市 新 成 立 的 Movenbank 
移动 银行 通过 与 已 有 的 传统 商业 银行 谈判 ,合作 推行 移动 银行 新 业务 ,帮助 其 解决 内 部 机 构 
割裂 问题 。 英 国 ERN 公司 提出 有 计划 去 利用 用 户 的 交易 历史 和 消费 习惯 ,然后 参照 交易 
位 置 和 时 间 数 据 , 向 各 大 银行 和 各 种 商家 提供 相关 数据 服务 和 交易 咨询 。 

2. 实现 信息 对 称 

大 数据 有 助 于 提升 金融 市 场 的 透明 度 。 金 融 客户 的 信用 状况 将 实现 实时 动态 变化 , 随 
着 其 资产 情况 ,经营 方式 和 各 类 交易 状况 的 变迁 而 变化 ,传统 商业 银行 直接 大 量 投入 人 力 、 
物力 和 财力 ,建立 特有 的 信息 平台 ,进行 收集 ,储存 分 析 和 决策 , 以 解决 长 期 存在 的 信息 不 
对 称 问题 。 近 年 来 ,大 数据 金融 可 以 通过 平台 直接 采集 .整合 金融 交易 双方 的 所 有 信息 形 
成 了 新 的 来 源 办 法 及 金融 信息 的 新 型 模式 ,金融 客户 的 交易 价格 信息 更 为 精细 ,社会 经 济 状 
况 等 方面 的 数据 更 加 透明 ,更 为 准确 地 形成 利率 ,实现 市 场 化 。 

新 型 的 大 数据 金融 企业 不 仅仅 是 平台 ,更 可 能 是 在 价值 链 中 间 成 为 中 介 角色 。 例 如 ,在 
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经 营 全 球 产 品 运输 方面 的 发 展 过 程 中 ,一 家 运输 公司 不 仅仅 收集 海量 信息 ,还 可 以 专门 销售 
这 些 信息 产品 。 同 时 进行 第 三 方 支付 的 企业 也 发 现 了 形形色色 的 海量 支付 信息 蕴含 的 巨大 
商业 价值 。 随 着 价格 信息 不 断 在 网 上 大 量 扩 散 至 线 下 ,各 类 基金 销售 企业 正在 自动 编辑 网 
络 上 数 百 万 种 不 同 商品 信息 的 比价 服务 ,这 对 消费 者 提供 了 信息 区 ,为 社会 创造 了 巨大 
价值 。 

新 兴 市 场 欠 缺 比 较 成 熟 的 各 类 征 信 机 构 , 因 此 有 些 公司 采用 申请 者 代 发 的 社交 网 络 信 
息 , 加 以 分 析 后 得 出 信用 评分 。 例 如 ,德国 研发 Kreditech 贷款 评分 公司 ,美国 设立 
Movenbank 移动 银行 ,中 国 香 港 成 立 Lenddo 网 络 贷款 公司 及 Trust Cloud, Connect. Me、 
Briiefly、Reputate 等 新 型 中 介 机 构 , 试 图 设计 大 数据 金融 的 信用 平台 ,打造 能 反映 Linked- 
In, Facebook 或 其 他 社交 网 络 的 开放 平台 ,整合 用 户 活 动 记 录 , 通 过 算法 自行 开发 软件 ,分 
析 客 户 的 好 友信 用 状况 ,建立 标准 化 格式 ,归纳 与 收集 各 种 信用 资料 ,成 为 客户 信用 评分 的 
重要 依据 ,实时 将 社交 网 络 产生 的 种 种 资料 直接 转化 成 个 人 的 因特网 信用 。Movenbank 直 
接 对 客户 采用 风险 评估 ,其 核心 参考 不 仅仅 是 个 人 传统 信息 汇总 ,也 逐渐 纳入 e-Bay 等 电子 
平台 的 各 种 交易 评价 ,包括 整个 网 络 汇款 产生 的 记录 等 综合 因素 ,还 会 全 面 计 算 Facebook 
的 好 友人 数 或 LinkedIn 的 人 脉 对 象 ,以 及 Klout 影响 力 分 数 等 网 络 社交 参与 情况 。 

3. 衍生 更 好 产品 

大 数据 金融 通过 物 联 网 ,借助 云 计 算 ,依靠 社交 网 络 等 新 的 数字 平台 产生 了 无 数 新 用 户 
和 海量 数据 ,虽然 直接 记录 了 所 有 用 户 群 体 的 社会 情绪 ,但 大 数据 库 不 能 自动 运行 ,无 法 自 
己 计算 总 结 整个 群体 的 行为 模式 和 活动 规律 。 计 算 机 科学 家 需要 社会 科学 家 加 强 互相 协 
作 , 和 统计 学 家 找到 新 途径 ,使 大 数据 研究 结合 小 数据 策略 。 利 用 大 数据 ,金融 企业 可 以 直 
接 分 析 客 户 行为 模式 ,比如 不 同事 件 关 联 性 分 析 , 如 同 对 照 实验 , 即 处 于 不 同 工 程 条 件 下 , 观 
察 机 构 投 资 者 、 测 试 普通 消费 者 对 金融 产品 的 不 同 反应 ,识别 客户 的 行为 关系 ,提高 资金 转 
化 率 ,改善 企业 服务 水 平 ,实现 大 数据 金融 的 良性 发 展 和 精准 营销 。 例 如 ,前 沿 的 零售 企业 
观察 客户 的 店内 行为 及 活动 情况 ,监控 其 与 商品 的 整个 互动 ,结合 所 有 交易 记录 分 析 , 开展 
各 种 实验 ,可 以 指导 商品 的 种 类 选择 、 摆 放 次 序 、 售 价 调整 。 再 如 ,通过 精细 化 数据 分 析 ， 
Progressive 保险 公司 不 断 考察 客户 风险 及 其 财富 变化 ,计算 家 庭 资产 数据 ,并 不 断 采 集 背 
景 资 料 ,向 客户 精准 服务 ,提供 专业 建议 和 量 身 定 制 的 独特 保单 。 未 来 ,保险 公司 还 将 根据 
个 人 位 置 状况 和 汽车 信息 对 不 同 的 车 险 产品 采取 不 同 定价 , 向 客户 提供 交通 信息 和 天 气 突 
发 状况 .事故 高 发 区 和 限 速 等 实时 更 新 的 信息 ,互动 开发 ,有 利于 安全 驾驶 。 


3.2.3 大 数据 金融 的 挑战 


1. 安全 隐患 

随 着 个 人 位 置 ,行动 空间 、 购 买 趋 向 性格 偏好 、 身 体 健康 和 公司 财务 情况 的 海量 数据 产 
生 并 被 收集 ,再 伴随 金融 交易 风格 、 持 有 资产 习惯 及 信用 状况 分 布 被 以 更 微小 、 更 精细 的 方 
式 采 集 、 储 存 和 分 析 , 机 构 投 资 者 获得 更 低 的 金融 价格 ,金融 消费 者 获得 更 符合 需要 的 服务 ， 
市 场 配 置 从 而 提高 ,金融 资源 越 来 越 丰富 。 但 与 此 同时 ,金融 市 场 依赖 的 信息 基础 设施 更 加 
庞大 , 变 得 越 来 越 复杂 ,整个 社会 管理 更 加 一 体 化 ,更 加 开放 外 向 ,对 隐私 和 数据 安全 更 加 敏 
感 ,保护 知识 产权 更 加 困难 。 针 对 个 人 隐私 ,大 数据 时 代 容 易 产生 隐私 的 问题 ,以 往 的 常规 
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身份 确认 远 远 不 够 ,风险 范畴 不 断 增加 。 最 近 科 学 家 对 欧洲 150 万 用 户 的 手机 进行 分 析 , 数 
据 显示 仅 需 要 4 项 基本 因素 就 已 经 可 以 对 其 中 高 达 95% 的 个 人 身份 进行 确认 。 还 有 ,基于 
大 数据 的 分 析 可 知 , 人 们 在 城市 中 选择 的 路 径 难 以 置信 的 存在 唯一 性 。 

2. 市 场 情绪 

大 数据 金融 可 以 通过 采集 ,分析 充斥 于 社交 媒体 上 的 各 类 内 容 做 出 市 场 情绪 分 析 。 如 
今 Twitter 日 发 消息 已 经 超过 5 亿 条 ,Facebook 日 益 火爆 ,日 均 用 户 已 经 超过 10 亿 。 英 国 
布 里 斯 托 尔 大 学 的 一 个 科研 团队 深入 研究 了 从 2009 年 7 月 到 2012 年 1 月 期 间 由 约 千 万 英 
国人 产生 的 4. 84 亿 条 Twitter 信息 ,得 出 结论 为 公众 的 情绪 直接 源 于 相关 财政 紧缩 产生 的 
社会 压力 。 惠 普 实验 室 的 科学 家 伯 纳 多 。 休 伯 曼 进行 社交 计算 研究 ,在 (网 页 法 则 》 里 分 析 
人 们 目前 发 布 在 虚拟 空间 的 微 博 与 现实 世界 有 关系 ,将 其 命名 为 “注意 力 经 济 学 ”"。 通 过 分 
析 , 他 发 现 电影 的 票房 收入 能 够 准确 预测 ,与 人 们 发 布 在 社交 网 站 的 微 博 相 关 。 

大 数据 研究 与 应 用 密切 相关 ,金融 投资 者 开始 投入 研究 ,试图 将 其 结合 起 来 。 最 近 两 
年 ,对 冲 基金 开始 研究 ,从 Facebook Twitter、 聊天 室 和 博客 等 社交 媒体 中 发 现 提取 市 场 情 
绪 信 息 ,开发 设计 交易 算法 。 一 旦 发 现 有 意外 信息 公布 ,无 论 恐 怖 袭击 事件 还 是 自然 灾害 
等 , 便 立 即 抛 出 ,获得 收益 。2008 年 ,在 美国 加 州 圣 莫 尼 卡 与 理 查 德 。 彼得 森 筹集 了 100 万 
美元 ,建立 了 名 为 Market Psy Capital 的 对 冲 基金 ,通过 考察 博客 、 聊 天 室 , 追 逐 网 站 和 微 
博 ,以 发 现 确 定 市 场 对 不 同 企业 引发 的 情绪 ,再 据 此 确定 基金 的 交易 策略 。 到 2010 年 ,该 基 
金 回报 率 最 高 达 40% 。 巴 黎 掌握 行为 金融 学 的 三 位 交易 员 运 营 IIBremans, 针 对 法 国 
CAC40 指数 做 判断 ,提供 情绪 分 析 ; 小 型 对 冲 基 金 DCM 资本 位 于 伦敦 ,从 Twitter 和 
Facebook 等 社交 媒体 采取 手段 收集 信息 ,通过 软件 分 析 人 们 对 某 个 金融 工具 的 情绪 ,进行 
评价 打分 ,并 向 客户 发 布 预测 提供 零售 ,辅助 专业 投资 者 ,做 出 重大 的 投资 决定 。 

3. 决策 误差 

大 数据 是 人 类 的 发 展 成 果 与 设计 的 产物 ,大 数据 的 工具 (如 Hadoop 软件 ) 还 在 成 长 ,并 
不 能 立刻 使 人 们 捍 脱 限制 思考 的 曲解 ,打破 隔 痢 和 成 见 , 数 据 之 间 彼 此 的 相关 性 也 不 直接 等 
同 于 因果 关系 ,大 数据 还 存在 其 他 技术 问题 ,比如 存在 选择 性 落 盖 问题 等 。 

例如 ,社交 媒体 虽然 是 大 数据 分 析 的 基础 平台 和 重要 信息 源 , 但 其 中 大 多 都 是 年 轻 人 ， 
城市 人 占 比 偏 高 ,还 存在 大 量 不 活跃 的 空 账 号 或 死 账号 。 比 如 波士顿 运用 Street Bump 程 
序 对 城市 路 面 进行 统计 ,其 坑 洼 情况 数据 来 自驾 驶 员 的 智能 手机 ,可 能 少 收集 计算 年 老 居民 
和 贫困 市 民 较 多 的 那些 区 域 。“ 众 歌 流 感 预测 ”曾经 过 高 估计 了 2012 年 的 全 球 流感 发 病 率 。 
这 说 明 大 数据 有 缺陷 ,政府 决策 片面 依赖 大 数据 可 能 带 来 不 实 ,可 能 造成 负面 影响 ,还 可 能 
进一步 加 剧 社会 已 有 的 不 公 。 
2010 年 ,美国 股票 市 场 从 恐惧 情绪 趋 于 慢 慢 复苏 ,但 Market Psy Capital 基金 未 能 及 时 
判断 明确 ,其 分 析 模 型 仍 建立 在 恐惧 基础 之 上 ,没有 及 时 调整 ,对 趋势 变化 考虑 不 充分 ,结果 
当年 该 基金 亏损 8% 。 美 国 印第安 纳 大 学 的 约翰 。 博 伦 指出 ,即使 整体 数据 的 准确 度 高 达 
80% 也 不 能 轻信 ,仅仅 20% 的 差错 率 就 足以 造成 破产 。 只 有 用 社交 媒体 衡量 整体 的 公共 情 
绪 才 有 意义 。 
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3.2.4 大 数据 金融 创新 


1, 高 频 交 易 

高 频 交 易 (High-Frequency Trading) 也 叫 算法 交易 (Algorithmic Trading) , 指 交易 者 为 
取得 高 额 利润 ,充分 利用 硬件 设备 ,依赖 交易 程序 的 优势 ,十 分 快速 地 收取 、 分 析 、 下 达 和 输 
送 大 量 交 易 指令 ,在 很 短 的 时 间 节 点 内 不 断 买 入 卖 出 ,通常 不 直接 持 有 大 批 未 对 冲 的 头寸 过 
夜 。 根 据 来 自 许多 方面 统计 数字 的 综合 判断 ,2009 年 至 今 ,美国 无 论 是 期 货 市 场 还 是 证 券 
市 场 ,或 是 外 汇市 场 ,高 频 交 易 所 占 份 额 持续 扩大 ,已 达 40%~80%。 随 着 运用 这 类 操作 策 
略 的 高 频 交 易 越 来 越 密 集 , 其 负面 效应 开始 进一步 凸显 , 且 实 际 利 润 不 断 大 幅 下 降 。 据 芝 加 
FF Rosenblatt 证 券 咨 询 公司 的 资料 表明 ,2012 年 采取 高 频 交 易 的 公司 的 总 利润 下 滑 , 比 
2009 年 下 降 了 约 74%。 

如 今 高 频 交 易 开 始 改 变 操 作 方 式 ,采取 “战略 顺序 交易 (Strategic Sequential 
Trading)”, 即 根据 金融 大 数据 的 分 析 结果 ,以 明确 识别 出 具体 的 特定 市 场 参与 者 ,追逐 其 留 
下 的 金融 足迹 。 例 如 ,假使 一 只 共同 基金 习惯 在 收盘 前 一 分 钟 的 第 一 秒 才 突然 执行 大 额 订 
单 ,那么 能 够 识别 并 判断 这 一 模式 的 算法 就 会 有 空间 操作 ,将 通过 预 判 该 基金 在 不 同 交易 时 
段 的 大 致 动向 ,进行 相应 交易 。 那 么 该 基金 继续 执行 交易 时 将 更 可 能 付出 更 高 的 价格 ,从 而 
使 得 使 用 该 算法 的 交易 商 最 终 获 得 较 大 利润 。 

2. 信贷 评估 

大 数据 金融 可 以 加 强 管理 力度 ,提高 风险 的 可 审查 性 与 可 预测 性 ,支持 实施 精细 化 管 
理 。 金 融 机 构 非 常 希望 能 够 了 解 中 小 微 企业 用 户 ,通过 收集 其 大 量 日 常 交易 行为 的 数据 ,可 
以 发 现 其 业务 范围 ,信用 水 平和 经 营 状况 ,判断 其 用 户 定位 、 资 金 需求 及 行业 发 展 趋势 ,从 根 
本 上 解决 小 微 企 业 不 透明 的 财务 制度 造成 的 战略 不 清晰 ,难以 改善 真实 的 经 营 状 况 的 难题 。 

阿里 小 贷 首次 实现 了 全 程 线 上 借贷 模式 ,首创 了 从 风险 审核 到 放贷 的 整个 流程 ,将 贷 
前 、 贷 中 与 贷 后 结合 ,三 个 环节 联动 ,形成 有 效 联结 ,使 得 贷款 不 难 , 改 变 传统 金融 渠道 的 不 
足 ,主动 为 弱势 群体 服务 ,批量 发 放 小 额 贷款 ,特点 是 “金额 小 期 限 短 、 随 借 随 还 ”。 

(1) 根据 阿里 巴巴 B2B、 天 猫 、 淘 宝 、 支 付 宝 等 一 系列 电子 商务 平台 ,收集 大 量 客户 积累 
的 原始 信用 数据 ,充分 利用 在 线 视频 ,全 方位 多 角度 定性 调查 相关 客户 的 资信 ,再 考虑 交易 
平台 上 产生 的 大 量 客户 信息 (客户 评价 度 , 口 碑 评价 、 货 运 数据 等 ), 并 量化 处 理 后 两 类 信息 ， 
同时 引入 税务 海关、 电力 等 外 部 产生 的 数据 进行 再 次 匹配 ,建立 有 效 的 数据 库 模型 。 

(2) 实施 交叉 检验 身份 技术 ,再 通过 第 三 方 验证 进一步 确认 客户 信息 ,确保 真实 性 。 借 
助 电子 商务 网 络 平台 ,统计 客户 的 各 类 行为 ,映射 为 数据 ,建立 企业 和 个 人 的 信用 评价 体系 。 
应 用 沙盘 推演 技术 ,评级 地 区 客户 ,进行 分 层 管理 ,研发 新 技术 。 设 置 评分 卡 体系 ,规定 微 贷 
通用 规则 ,推动 决策 引擎 ,实现 风险 定量 化 分 析 等 技术 。 

G) 建立 网 络 人 际 疏 虫 系统 ,实现 风险 监管 开发 ,跨越 地 理 距 离 的 限制 ,捕捉 人 际 关 系 
信息 ,并 通过 设立 规则 整合 相关 事项 ,实现 关联 性 分 析 ,得 到 风险 评估 结论 ,综合 风险 评估 结 
论 与 贷 前 评级 系统 ,进行 双向 交叉 共同 验证 ,构成 双 保 险 控 制 风 险 。 依 靠 因特网 监控 技术 ， 
阿里 小 贷 可 以 明确 贷款 的 流向 。 如 果 将 贷款 用 于 扩大 经 营 ,阿里 小 贷 将 帮助 评估 其 广告 投 
放 的 方式 .店铺 装修 的 风格 及 销售 措施 。 
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3. 监管 方式 


大 数据 的 使 用 不 仅仅 改变 金融 市 场 , 随 之 而 来 需要 改变 传统 监管 市 场 的 方式 ,以 最 大 限 
度 确保 市 场 参 与 者 规范 地 采集 大 数据 ,安全 地 存储 大 数据 ,客观 地 分 析 大 数据 。 例 如 ， 
2010 年 5 月 发 生 的 “闪电 暴跌 (Flash Crash)” 令 道琼斯 工业 平均 指数 (Dow Jones Industrial 
Average) 大 幅 下 跌 , 事 后 美国 监管 部 门 考察 ,认为 是 高 频 交 易 的 恶果 ,造成 了 快速 集中 抛 
售 , 引 发 更 多 不 负责 的 抛售 。2013 年 4 月 23 日 突 发 的 “无 厘 头 暴跌 (Hash Crash) ”的 缘由 
BS ATER BRE RK ALIN Twitter 账号 出 错 , 误 发 出 巴 拉 克 。 奥 巴 马 (Barack Obama) R 
然 遭 遇 恐 怖 袭击 的 虚假 消息 。 可 见 , 大 数据 金融 风险 加 大 ,一 个 数据 出 错 就 可 能 直接 导致 
“无 厘 头 暴跌 ”。 

但 是 ,监管 机 构 片 面 限制 大 数据 技术 ,或 是 对 其 使 用 范围 进行 直接 限制 和 干预 ,其 潜在 
风险 反而 是 更 加 巨大 的 。 恰 恰 相 反 ,应 鼓励 产业 界 积极 应 对 更 复杂 的 技术 ,乃至 继续 实施 更 
大 数据 的 应 用 。 

纽约 大 学 理工 学 院 (NYU-Poly) 召开 大 数据 金融 会 议 , 美 国 商 品 期 货 交 易 委 员 会 
(CCFTC) 的 代表 斯 科 特 。 奥 马利亚 (Scott O'Malia) 表 示 ,CFTC 曾 考虑 如 何 实现 有 效 监管 ， 
主张 让 监管 机 构 主动 出 击 , 对 金融 交易 商 的 算法 进行 科学 认证 。 在 实践 中 ,利用 算法 采取 的 
鲁莽 行为 带 来 更 大 的 破坏 ,甚至 超过 传统 的 操纵 市 场 行为 。 劳 伦 斯 伯克利 国家 实验 室 名 声 
在 外 ,拥有 强大 的 超级 计算 能 力 和 独特 的 雄厚 分 析 技术 ,能 够 做 到 针对 威胁 稳定 交易 的 行为 
采取 实时 监控 。 传 统 的 停 市 机 制 只 能 在 市 场 暴 跌 后 采取 措施 ,停止 全 部 交易 ,而 大 数据 实时 
监控 能 够 精细 调控 ,将 单个 不 规范 的 参与 者 清除 ,从 而 继续 向 诚信 的 其 他 参与 者 敞开 市 场 。 

4. 信用 文化 

大 数据 带 来 思维 方式 的 变革 ,从 而 会 导致 传统 金融 业 发 生 思 维 变 革 , 首 先 会 扭转 传统 爹 
融 信贷 业 的 物质 抵押 文化 ,直接 推动 信用 成 为 价值 ,信用 借贷 成 为 可 能 ,走向 主流 。 尤 其 传 
统 的 中 国 金融 行业 盛行 抵押 文化 ,在 贷款 的 行为 过 程 中 片面 依赖 抵押 物品 ,往往 导致 急需 借 
贷 的 中 小 企业 反而 得 不 到 相应 的 贷款 服务 ,这 种 粗暴 的 抵押 文化 对 金融 业 发 展 不 利 , 让 贷款 
提供 方 难以 提高 服务 ,在 考量 借贷 时 思维 简单 。 贷 款 方 仅 仅 片 面 的 把 抵押 物 的 价值 作为 考 
量 , 以 此 确保 价值 的 利润 空间 。 长 期 而 言 , 抵 押 文 化 对 金融 健康 发 展 具有 负面 的 影响 。 要 想 
真正 发 展 金融 ,就 要 提高 信用 贷款 ,建立 有 效 的 信用 机 制 。 真 正 的 保值 增值 不 是 抵押 物 , 而 
是 人 们 的 长 期 信用 。 

大 数据 金融 首先 表现 为 思维 的 变革 。 信 用 是 抽象 的 ,但 大 数据 可 以 建立 信用 体系 ,让 个 
人 的 信用 或 者 群体 的 信用 变 得 具体 。 这 将 是 金融 业 的 根本 性 改变 ,并 将 持续 产生 巨大 的 深 
远 影 响 。 个 人 的 信用 评估 不 是 静态 的 ,而 是 取决 于 很 多 的 变量 ,是 一 个 动态 的 .连续 的 行为 
特征 的 长 期 体现 一 一 资产 、 消 费 . 收 入 习惯. 个性、 社交 网 络 等 都 是 有 效 的 变量 ,会 对 个 体 的 
信用 产生 积极 的 影响 。 个 体 信用 通过 具体 的 各 种 行为 综合 决定 ,通过 大 数据 的 整合 ,可 以 很 
好 地 采集 大 量 的 个 体 或 者 群体 的 信用 行为 .进行 储存 、 整 理 、 分 析 , 只 要 把 海量 数据 冯 合 在 一 
起 就 会 显示 客观 规律 ,使 得 人 的 信用 不 再 模糊 , 变 得 鲜明 、 生 动 、 立 体 化 ,从 而 很 好 地 把 握 个 
体 或 群体 信用 。IT 技术 的 改善 和 发 展 、 因 特 网 的 建立 和 延伸 、 大 数据 的 产生 和 应 用 ,让 市 场 
走向 全 球 化 ,摆脱 了 传统 地 域 的 限制 ,使 得 市 场 更 加 集中 ,从 而 使 得 企业 规模 更 大 ,成 长 速度 
更 快 。 而 大 数据 技术 的 不 断 突破 也 催生 明显 的 马 太 效应 强 者 越 加 强大 ,如 果 局 限于 局 
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域 优势 ,就 无 法 形成 海量 的 用 户 资 源 和 数据 资产 的 良好 管理 ,那么 就 会 前 弱 我 们 的 核心 竞 
争 力 。 

大 数据 是 促进 金融 事业 高 发 展 和 广 开 放 的 关键 ,首先 要 实现 数据 整合 , 保证 全 时 在 
线 。 现 在 很 多 公共 系统 都 是 相互 孤立 的 ,即使 银行 的 很 多 领域 也 不 例外 ,比如 对 私 业 务 与 对 
公 业 务 , 还 有 银行 卡 业务 等 处 于 互 不 交流 的 状态 ,难以 形成 整体 综合 的 联动 效应 。 不 仅仅 是 
金融 数据 决定 信用 ,其 他 相关 领域 的 很 多 数据 也 会 产生 巨大 的 影响 ,这 就 要 求 数据 具有 更 高 
的 开放 性 。 因 特 网 不 仅仅 有 开放 性 ,还 具有 天 生 的 透明 性 ,并 且 这 些 数据 还 可 以 共享 因 特 
网 ,进行 互联 互通 ,推动 大 数据 广泛 应 用 。 传 统 的 金融 业 借 助 大 数据 必然 会 发 生根 本 的 变 
化 。 大 数据 必须 采集 、 储 存 足 够 的 海量 数据 ,这 是 进行 一 切 应 用 实现 预测 的 最 大 前 提 。 预 测 
需要 收集 足够 全 面 及 非常 杂 多 的 海量 信息 ,这 是 预测 得 以 成 功 的 最 大 关键 。 几 十 年 来 计算 
机 和 因特网 的 出 现 ,IT 技术 的 飞速 发 展 使 得 大 量 事物 数据 化 ,并 在 加 速 量化 ,直至 一 切 皆 可 
“量化 ”。 

大 数据 金融 天 生 具 有 快速 发 展 的 技术 优势 。 因 特 网 结合 云 计 算 可 以 在 广泛 的 范围 内 采 
集 信息 ,储存 信用 ,完成 评估 ,分 析 个 人 行为 ,整合 群体 信息 ,并 将 这 些 纷繁 杂 多 的 海量 信息 
实时 提供 给 高 效 的 大 数据 作业 系统 ,进行 加 工 处 理 , 获 得 价值 。 从 这 个 分 析 来 看 ,P2P 对 大 
数据 金融 的 信用 评估 更 有 独特 优势 。 由 于 P2P 的 独特 市 场 特点 ,导致 它 可 以 充分 覆盖 更 多 
的 用 户 群 ,同时 因为 充分 利用 了 自我 组 织 人 人 互通 的 特点 ,可 以 让 用 户 源源 不 断 的 产生 数 
据 , 从 而 迅速 实现 海量 数据 的 自我 膨胀 和 产生 及 循环 扩张 。 使 得 数据 取 之 不 尽 , 用 之 不 竭 ， 
创新 成 为 现实 。 虽 然 大 数据 引发 的 这 场 巨大 变革 还 仅仅 处 于 早期 阶段 ,但 大 数据 金融 的 影 
响 已 然 历历 在 目 : 金融 服务 将 持续 转型 ,从 * 关 注 整体 ”的 粗放 式 管理 进一步 向 “关注 个 体 ” 
的 精细 化 管理 转型 ; 由 片面 简单 的 抵押 文化 向 全 面 长 远 的 信用 文化 转变 ; 将 会 建立 更 完善 
的 信用 体制 和 更 全 面 的 风险 管理 体制 ; 从 “以 利润 为 中 心 ” 的 自我 发 展 向 “以 客户 为 中 心 ”的 
共 赢 发 展 转型 。 我 们 还 可 以 充满 信心 的 预见 ,大 数据 金融 能 够 真正 引发 社会 产生 实质 的 改 
变 ,并 且 一 定 是 由 具备 大 数据 思维 的 公司 所 推动 的 。 只 有 立足 精准 服务 ,面向 海量 用 户 , 占 
有 数据 资产 ,具备 战略 眼光 ,符合 大 数据 的 未 来 趋势 ,才能 拥有 长 期 的 核心 竞争 力 。 


3.3 大 数据 在 媒体 的 应 用 


大 数据 时 代 , 信 息 传播 方式 的 改变 带 来 了 突 发 事件 话语 体系 的 变迁 。 首 先 , 突 发 事件 议 
程 设置 主体 身份 话语 权 的 变迁 导致 了 民间 与 论 崛起 而 主流 权威 消解 ,意见 领袖 作用 日 益 显 
著 ; 其 次 ,以 微 博 为 代表 的 社会 化 媒体 成 为 突 发 事件 的 主要 话语 表达 载体 , 微 博 成 为 突 发 事 
件 的 与 论 中 心 ,随时 掀起 与 论 风 暴 ; 最 后 , 突 发 事件 话语 体系 一 改 往日 的 可 控 局 面 ,调控 难 
度 空前 巨大 。 而 导致 上 述 改 变 发 生 的 诸多 原因 中 信息 通信 技术 的 发 展 应 名 列 首位 ,大 数据 
时 代 通 信 设 备 的 普及 和 巨大 的 信息 产能 使 得 突 发 事件 信息 得 以 迅速 、 广 泛 传 播 , 进 而 生成 与 
论 。 在 明确 大 数据 时 代 突 发 事件 话语 体系 的 发 展 趋势 与 其 中 的 原因 后 ,如 何 应 对 就 成 为 重 
点 ,可 以 分 别 从 应 对 思维 、 信 息 管理 机 制 的 构建 .具体 策略 实施 三 个 方面 进行 仔细 的 考量 。 
首先 ,大 数据 时 代 的 突 发 事件 应 对 思维 应 当 符合 大 数据 规模 化 、 高 相关 性 等 特点 ,并 且 要 充 
分 适应 社会 化 媒体 对 信息 开放 的 要 求 。 其 次 ,大 数据 时 代 突 发 事件 的 与 论 应 对 离 不 开 运 用 
信息 技术 对 突 发 事件 信息 和 数据 的 管理 和 分 析 。 因 此 ,以 突 发 事件 的 发 生 时 序 为 基准 可 划 
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分 为 与 情 预 警 、 信 息 控 制 及 事后 评估 三 个 步 又 ,对 突 发 事件 事前 、 事 中 、 事 后 每 一 个 阶段 进行 
突 发 事件 信息 管理 并 建立 与 论 应 对 的 相应 制度 ,例如 信息 监测 体系 、 信 息 公开 制度 、 新 闻 发 
言 人 制度 及 事后 评估 制度 等 。 最 后 ,与 信息 管理 机 制 建设 相配 合 的 是 具体 与 论 引 导 策略 ,应 
当 从 充分 利用 社会 化 媒体 和 加 强 主流 媒体 话语 能 力 两 个 方面 入 手 ,双管齐下 实现 网 络 平台 
和 传统 媒体 中 突 发 事件 的 与 论 引 导 。 


3.3.1 传统 媒体 的 不 足 


大 数据 浪潮 对 媒体 影响 巨大 ,价值 非常 可 观 , 大 数据 对 传统 媒体 冲击 很 大 ,大 多 数 传统 
媒体 通常 分 为 强 内 容 模式 、 强 渠道 模式 、 强 服务 模式 ,如 图 3-5 所 示 。 传 统 媒体 如 果 不 转型 ， 
不 具备 在 大 数据 条 件 颠 覆 创 新 的 能 力 ,原因 如 下 : 首先 本 质 上 传统 媒体 业 掌握 的 数据 资源 
非常 有 限 。 麦 肯 锡 全 球 研究 所 指出 ,行业 不 同 ,产生 的 大 数据 内 容 就 不 相同 ,银行 .证 券 . 通 
信 等 服务 行业 拥有 海量 数据 ,公共 事业 单位 和 政府 组 织 采 集 储存 了 大 量 数字 化 数据 ,规模 庞 
大 。 大 多 数 传统 媒体 机 构 拥有 的 数据 资源 有 限 , 很 难 与 各 种 社交 网 站 相提并论 。 其 次 是 传 
统 媒体 业 尚 不 具备 大 数据 分 析 能 力 ,大 数据 难以 靠 传统 工具 解决 ,大 量 各 种 各 样 的 数据 应 用 
传统 的 方法 无 法 快速 解决 。 而 传统 媒体 只 能 产生 有 限 的 数据 ,难以 处 理 与 适应 庞大 内 容 的 数 
字 化 ,在 开展 新 媒体 业务 时 不 够 专业 , 需 重 新 转化 编码 。 再 从 硬件 和 人 才 来 看 ,大 数据 的 存储 
处 理 所 需 要 的 IT 架构 ,可 视 化 所 要 求 的 基础 设施 和 专业 人 员 , 大 多 数 传统 媒体 机 构 也 不 具备 。 


媒体 的 出 路 
































* 供 血 : 版 权 、 付费 会 员 供养 、 广 告 
。 生 产 : 精英 人 才 生 产 深度 内 容 
“瓶颈 : 环境 恶劣 、 价 值 天 花 板 











* 供血: 广告 、 流 量 转化 
* 生 产 : 爬虫 抓 取 、UGC 、 数 据 自动 生产 
“上 瓶颈 : 转型 过 程 困难 


强 渠道 模式 


* 供 血 : 广告 、 其 他 服务 
。 生 产 : 内 容 举 旗 ， 服 务 落地 
OWLS: 转型 过 程 困 难 


图 3-5 传统 媒体 的 模式 


3.3.2 大 数据 驱动 传统 媒体 的 升级 


大 数据 浪潮 之 下 ,媒体 机 构 应 当 一 方面 承认 差距 ,不 盲目 追逐 概念 ; 另 一 方面 避免 言 
目 , 实 事 求 是 地 思考 。 缺 少数 据 资源 ,产业 不 能 发 展 ; 缺少 数据 思维 ,企业 就 要 落后 。 数 据 
是 非常 重要 的 生产 生活 资料 , 面 对 未 来 的 发 展 . 人 人 需要 大 数据 理念 ,学 习 大 数据 思维 ,具备 
大 数据 意识 ,充分 体会 大 数据 价值 。 传 统 媒体 机 构 应 当 更 加 开放 ,更 加 务实 ,学 习 大 数据 , 掌 
握 大 数据 。 从 大 数据 内 容 、 服 务 、 渠 道 等 方面 进行 拓展 (如 图 3-6 所 示 ) ,可 分 为 以 下 5 个 方向 : 

1. 积累 数据 资产 

媒体 数据 资产 的 核心 是 原创 内 容 数字 化 和 历史 数据 ,对 报 业 而 言 是 全 文 数据 库 , 对 电视 
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而 言 是 图 片 数 据 库 等 ,建设 媒体 资产 管理 系统 ,扩充 外 部 数据 ,通过 合作 ,交换 数据 ,购买 因 
特 网 平台 用 户 提供 的 各 种 内 容 ,完善 数 据 资产 ,组 织 数 据 存储 ,实现 查询 调用 ,提供 版 权 管 
理 ,方便 转化 利用 , 打 好 应 用 基础 。 

2. 掌握 数据 能 力 

购买 基础 设施 ,技术 外 包 合 作 , 具 备 数据 处 理 能 力 , 掌 握 大 数据 应 用 能 力 ; 引进 人 才 , 培 
养 骨干 ,引进 数据 科学 家 ,实现 商业 智能 ,具备 统计 学 知识 ,精通 自然 语言 处 理 ,设计 新 型 产 
品 , 分 析 企 业 运营 。 

3. 用 数据 支持 经 营 

传统 媒体 可 以 培养 大 数据 意识 ,应 用 数据 进行 经 营 , 增 强 决 策 的 科学 性 ,完善 传统 用 户 
数据 库 ,采集 客户 端 网 站 收集 的 各 种 用 户 信 息 ,精准 分 析 , 理 解 客户 日 益 多 元 的 需求 ,改进 设 
计 , 制 定 符合 大 数据 时 代 的 营销 策略 ,提升 广告 产生 的 效果 。 

4. 用 数据 辅助 报道 

通过 挖掘 ,展示 数据 的 背景 ,找到 关联 ,建立 模式 ,根据 数据 新 闻 学 ,运用 可 视 化 手段 与 
观众 互动 ,报道 即时 发 生 的 新 闻 ,提供 新 闻 链 接 , 有 助 于 公众 理解 新 闻 , 思 考 新 闻 对 人 们 生活 
的 影响 。 媒 体 需 要 学 会 借助 搜索 引擎 ,学 习 社 交 网 站 ,互相 合作 ,把 握 社会 。 

5. 真正 拓展 大 数据 业务 

推出 新 闻 产 品 具有 社交 属性 ,投身 真正 大 数据 的 海洋 ,提供 免费 的 个 性 化 应 用 ,采集 用 
户 行为 ,了 解 阅读 内 容 , 抓 取 用 户 数据 ,进而 判断 用 户 在 社交 网 络 上 的 个 性 化 内 容 , 分 析 客 户 
兴趣 ,实现 归 类 发 送 。 
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图 3-6 媒体 大 数据 转型 的 关键 


3.3.3 大 数据 引领 新 媒体 发 展 


大 数据 结合 新 媒体 ,新 的 特征 不 仅仅 是 海量 ,而 是 增值 并 且 全 息 可 见 , 只 有 实现 增值 的 
数据 才 有 更 大 的 应 用 ,只 有 实现 全 息 可 见 数据 才能 被 更 广 的 传播 。 大 数据 时 代 呼 唤 大 数据 
的 融合 ,实现 大 数据 的 可 流转 才能 真正 发 挥 数据 拥有 的 价值 。 大 数据 时 代 最 核心 的 要 求 是 
数据 开放 ,实现 资源 共享 。 如 果 在 企业 之 间 和 社会 各 个 方面 不 能 做 到 数据 的 自由 流动 , 那 社 
会 将 变 成 一 个 个 信息 孤岛 ,大 数据 将 无 法 发 挥 作用 ,不 能 得 到 价值 最 大 化 ,所 以 只 有 实现 数 
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据 的 交叉 复 用 ,达到 全 社会 之 间 的 自由 流转 ,未 来 的 商业 才 有 可 能 实现 繁荣 。 

消费 者 存在 着 信息 视 域 过 罕 的 问题 ,信息 量 在 不 断 增加 ,但 是 消费 者 个 体 很 难 分 析 筛 先 
大 数据 ,处 理 信息 和 过 滤 信 息 的 能 力 有 待 进一步 提高 ,同时 消费 者 出 现 长 尾 化 的 发 展 趋势 。 
新 媒体 时 代数 据 形式 产生 了 巨大 的 变异 ,结构 化 数据 变 成 半 结构 化 甚至 非 结构 化 的 数据 , 比 
如 音频 ,视频 之 类 。 社 交 网 络 用 户 制造 的 信息 也 从 单 渠 道 变 成 多 渠道 。 因 特 网 和 移动 因 特 
网 结合 ,催生 着 跨 网 数据 的 发 展 。 用 户 越 来 越 希望 利用 碎片 化 时 间 , 通 过 移动 因特网 获得 有 
价值 的 信息 ,客户 体验 迅速 下 降 , 用 户 甄别 信息 能 力 与 日 俱 减 ,用 户 兴趣 数据 与 日 俱 增 , 所 以 
个 性 化 大 数据 是 一 个 发 展 方向 。 

很 多 企业 建立 了 日 益 庞大 的 数据 平台 ,推动 数据 有 效 流转 ,在 数据 提供 方 与 需求 方 之 间 
自由 流动 。 科 研 机 构 需 要 大 量 的 原始 数据 ,希望 能 够 用 来 进一步 做 深度 研究 ,个 人 用 户 和 个 
人 终极 应 用 开发 者 也 需要 用 户 。 

大 数据 和 新 媒体 面临 很 多 挑战 ,构建 有 效 的 消费 者 信息 库 , 可 以 有 助 于 企业 精准 出 击 ， 
实现 多 维 数据 处 理 和 实时 计算 ,快速 找到 不 同 用 户 的 兴趣 ,还 有 广告 的 信息 化 关注 怎样 能 够 
更 有 效 .更 精准 地 找到 目标 客户 群 。 新 媒体 时 代 大 数据 环境 下 ,能 够 非常 精准 预测 , 掌握 每 
一 个 广告 的 投入 ,分 析 用 户 行为 ,预测 广告 效果 ,促进 客户 购买 。 

大 数据 时 代 传 统 媒体 面临 转型 的 难题 ,如 何 发 展 不 仅仅 是 技术 问题 ,更 是 战略 问题 ,将 
会 深刻 的 影响 未 来 的 媒体 形态 ,改变 现 有 的 媒体 格局 。 

1. 数据 资源 助 推 媒体 转型 

近年 来 ,大 数据 时 代 伴随 着 信息 爆炸 式 增长 而 来 ,爆发 式 增长 的 数据 量 带 来 了 数据 储存 
方式 的 革命 ,信息 存储 成 本 只 是 10 年 前 的 1%6 ,在 2000 年 全 球 只 有 1/4 的 数据 是 以 数字 化 
的 方式 储存 的 ,而 到 了 2007 年 ,只 有 7% 的 数据 储存 在 报纸 ,书籍 与 图 片 等 传统 媒介 上 ,其 
余数 据 全 部 是 数字 数据 。 新 媒体 的 价值 就 体现 在 数据 分 析 上 ,进入 数字 时 代 和 智能 时 代 , 信 
息 能 够 控 气 出 规律 ,数据 就 是 知识 的 基础 ,通过 大 数据 分 析 工具 帮助 正确 决策 的 数据 就 是 最 
重要 的 资源 。 

大 数据 时 代 的 信息 不 仅仅 是 新 闻 之 类 ,而 是 各 种 各 样 丰富 多 彩 的 数据 。 媒 体 出 现 新 的 
信息 生产 方式 ,应 用 新 的 传播 方式 ,成 为 多 元 化 媒介 ,不 仅仅 是 生产 数据 ,更 要 分 析 数 据 , 解 
读 信息 ,传播 与 论 , 职 能 多 元 ,为 受众 提供 分 众 化 服务 ,注重 用 户 体验 ,实现 媒体 发 展 的 大 数 
据 之 路 。 

2. 量 身 打造 体现 发 展 新 思路 

目前 门户 网 站 互相 模仿 ,网 络 媒体 同 质 竞争 ,媒体 和 门户 网 站 应 该 避免 恶性 竞争 ,利用 
大 数据 ,建立 关系 链 , 为 用 户 考虑 , 细 分 第 选 ,精准 推荐 ,内 容 整合 ,通过 数据 分 析 , 针 对 受众 
感受 ,满足 不 同 主体 的 个 性 化 要 求 ,实现 专业 化 发 展 ,提供 新 闻 资讯 ,重视 客户 体验 ,成 为 社 
交 媒 体 。 

大 数据 提供 了 新 媒体 发 展 的 理论 背景 与 实践 手段 有 助 于 媒体 掌握 大 量 数据 源 ,帮助 门 
户 网 站 实现 转型 ,提供 了 良好 契机 ,制定 了 发 展 战略 。 

3. 挑战 机 遇 赢 得 大 数据 时 代 的 主动 权 


大 数据 时 代 , 传 统 媒体 需要 转型 ,结合 技术 发 展 与 客户 需要 找到 适合 自身 特色 的 发 展 道 
路 ,应 该 思考 传播 规律 ,了 解 自身 实际 ,把 握 受 众 需 求 , 赢 得 机 遇 , 接 受 挑战 。 
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大 数据 新 媒体 的 战略 决策 能 力 很 重要 ,需要 应 对 快速 增长 的 数据 ,需要 投入 带宽 ,加 大 
存储 设备 等 基础 设施 方面 的 投入 ,考验 媒体 决策 者 的 胆 魄 和 智慧 ,转型 就 会 赢得 主动 权 , 不 
然 就 必然 被 淘汰 。 转 型 就 要 全 面 变革 当前 的 报道 形式 ,方方面面 改造 现 有 的 运行 体系 。 只 
有 具备 数据 加 工 能 力 才能 应 对 大 数据 时 代 , 大 数据 新 媒体 需要 拥有 专门 的 数据 分 析 方法 , 建 
立 全 新 的 使 用 体系 ,招聘 新 型 的 高 端 专业 人 才 , 建立 专门 的 数据 管理 部 门 和 分 析 专 家 ,在 大 
数据 时 代 的 转型 道路 上 媒体 要 把 握 方向 ,将 既 有 的 投资 ,数据 和 价值 观 整合 到 新 的 业务 中 
去 ,在 更 高 层次 上 得 以 发 展 ,积极 谋略 全 局 ,着 眼 长 远 ,赢得 大 数据 时 代 的 主动 权 。 新 媒体 的 
迅猛 发 展 产 生 了 海量 数据 ,这 些 数 据 使 我 们 能 够 更 好 地 洞察 社会 各 方面 的 细微 变化 。 深 入 
挖掘 新 媒体 大 数据 蕴含 的 价值 ,将 有 力 助 推 中 国 经 济 转型 。 


3.4 大 数据 在 医疗 上 的 应 用 


由 于 云 计算 产 生 的 各 种 商业 模式 诸如 商务 云 , 物 流 云 、 医 疗 云 等 的 出 现 ,商业 利益 进 一 
步 推动 云 计算 不 断 向 前 发 展 。2011 年 ,麦肯锡 开始 应 用 大 数据 解决 问题 ,商业 互动 中 激增 
的 数据 量 和 多 种 多 样 的 数据 种 类 推动 大 数据 存储 技术 和 分 析 技 术 的 进步 ,现在 的 大 数据 分 
析 技 术 比 20 年 前 能 处 理 更 大 更 多 的 实时 数据 ,产生 更 大 的 商业 价值 。 图 3-7 展示 了 大 数据 
应 用 于 医疗 的 驱动 。 
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图 3-7 大 数据 应 用 于 医疗 的 驱动 


实施 大 数据 分 析 项 目 ,数据 企业 不 仅 需 要 掌握 应 用 何 种 技术 ,而 且 应 该 了 解 使 用 的 时 机 
和 地 点 。 医 疗 行业 伴随 因特网 公司 较 早 前 就 开始 利用 大 数据 并 发 扬 大 数据 分 析 的 优势 , 海 
量 数据 和 非 结构 化 数据 的 挑战 带 来 医疗 机 构 对 于 医疗 信息 化 的 需求 ,并 迫使 其 投入 大 量 资 
金 进行 大 数据 分 析 。 麦 肯 锡 研究 之 后 指出 医疗 行业 对 大 数据 应 用 的 需求 不 亚 于 银行 .电信 
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与 保险 等 行业 ,大 数据 分 析 可 以 帮助 美国 的 医疗 服务 业 排除 体制 障碍 并 创造 巨额 附加 价值 ， 
提高 医疗 效率 和 医疗 效果 。 


3.4.1 大 数据 改进 临床 决策 支持 系统 


针对 特定 病人 的 最 佳 治疗 途径 可 以 通过 全 面 分 析 病 人 特征 数据 和 疗效 数据 进行 多 种 干 
预 措施 的 有 效 性 比较 来 找到 。 医 生 确定 临床 上 最 有 效 和 最 具有 成 本 效益 的 治疗 方法 就 是 通 
过 大 数据 技术 将 医疗 仪器 精准 分 析 病 人 体征 产生 的 数据 与 疗效 数据 进行 分 析 ,减少 过 度 治 
疗 或 治疗 不 足 , 因 为 过 度 治疗 与 治疗 不 足 都 会 给 病人 带 来 不 利 影响 。 临 床 决策 支持 系统 可 
以 有 效 提高 医疗 质量 与 工作 效率 ,有 助 于 医生 更 好 的 提出 方案 ,防止 药物 不 良 反 应 ,医疗 服 
务 提供 方 可 以 通过 部 署 这 些 系统 降低 医疗 索赔 数 和 事故 率 。 

大 数据 分 析 技 术 主 要 体现 在 对 于 非 结 构 化 数据 进行 快速 分 析 , 加 强 分 析 技 术 可 以 提高 
临床 决策 支持 系统 的 智能 水 平 ,挖掘 医疗 文献 数据 建立 医疗 专家 数据 库 , 或 者 使 用 图 像 分 析 
和 识别 技术 识别 医疗 影像 数据 ,都 可 以 帮助 医生 在 诊疗 中 提高 效率 与 质量 。 此 外 ,临床 决策 
支持 系统 还 可 以 完成 助理 医生 与 护理 人 员 在 医疗 流程 中 的 大 部 分 工作 ,提高 医生 治疗 效率 ， 
避免 陷入 耗 时 过 长 的 简单 咨询 工作 中 。 

采集 医疗 过 程 中 的 工作 数据 ,可 以 提高 医疗 服务 的 透明 度 与 质量 ,进而 推动 医疗 机 构 实 
现 绩效 的 提升 。 信 息 透明 增进 医疗 操作 的 流程 优化 ,对 整个 绩效 数据 集 实行 数据 分 析 有 助 
于 做 出 可 视 化 的 流程 图 ,分 析 临 床 变异 的 数据 ,判断 医疗 废物 的 来 源 , 提 供 服 务 质量 的 数据 
都 可 以 实现 绩效 的 不 断 提 高 ,帮助 医疗 服务 机 构 提高 服务 水 准 , 带 来 竞争 力 。 精 简 业 务 流程 
可 以 降低 成 本 ,找到 效率 更 高 的 员工 ,提升 护理 质量 ,最 终 实 现 病 人 的 更 好 体验 ,从 而 给 医疗 
服务 机 构 增 加 业绩 ,并 且 增 长 潜力 。 


3.4.2 大 数据 助 推 医疗 产品 研发 


利用 大 数据 医疗 产品 公司 可 以 提高 研发 效率 ,在 新 药物 的 研发 阶段 ,医药 公司 可 以 通过 
数据 建 模 , 分 析 投 入 产 出 比 , 确 定 最 佳 的 资源 组 合 ,采集 药物 临床 试验 的 所 有 数据 集 ,建立 相 
关 模 型 ,预测 产品 的 安全 性 、 有 效 性 和 潜在 的 副作用 ,评价 整体 的 试验 结果 ,建立 模型 ,预测 
药物 临床 结果 ,选择 最 优 药物 ,进行 临床 试验 ,降低 研发 成 本 。 除 了 研发 成 本 外 ,医药 公司 可 
以 推出 治疗 成 功率 更 高 的 药物 ,并 将 药物 更 快 推 向 市 场 ,使 用 预测 模型 可 以 帮助 医药 企业 将 
研发 新 药 推 向 市 场 的 时 间 比 原来 提早 3 一 5 年 。 

提高 临床 试验 设计 水 平 ,使 用 更 好 的 统计 工具 和 算法 ,有 助 于 加 快 临床 试验 。 评 估 患 
者 ,挖掘 病人 数据 可 以 加 快 临床 试验 进程 , 找 出 最 合适 的 临床 试验 患者 ,临床 试验 基地 就 能 
指出 更 有 效 的 临床 试验 设计 建议 ,在 试验 患者 群体 的 规模 和 特征 两 者 之 间 找 到 平衡 可 能 是 
更 理想 的 。 确 定 药品 更 多 的 适应 征 和 发 现 副作用 需要 分 析 临 床 试验 数据 和 病人 记录 ,分 析 
病人 临床 试验 数据 ,进行 药物 定位 ,检测 药物 不 良 反 应 ,保证 上 市 药品 的 安全 。 

发 展 个 性 化 治疗 需要 通过 对 例如 基因 组 数据 之 类 的 大 型 数据 集 进行 分 析 是 另 一 种 在 研 
发 领域 有 前 途 的 大 数据 创新 ,在 药物 研发 和 用 药 过 程 中 应 该 考虑 个 人 的 遗传 变异 因素 ,例如 
通过 考察 遗传 变异 、 对 特殊 药物 的 反应 和 对 特定 疾病 易 感 性 的 关系 等 。 
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3.4.3 大 数据 催生 新 医疗 服务 模式 


大 数据 分 析 可 以 给 医疗 服务 行业 带 来 新 的 商业 模式 。 分 析 患 者 的 临床 记录 ,处 理 其 医 
疗 保险 数据 集 ,将 改善 医疗 支付 方 的 决策 能 力 , 医 疗 服务 提供 方 同样 受益 于 医疗 数据 的 分 析 
处 理 。 医 药 企业 通过 医疗 数据 不 仅 可 以 提高 药品 的 疗效 ,而 且 有 利于 药品 的 销售 。 医 疗 保 
险 数据 集 的 整合 处 理 有 助 于 加 快 医学 的 发 展 和 医疗 保健 行业 的 市 场 扩张 。 非 营利 性 组 织 运 
营 的 网 站 网 络 平台 是 潜在 的 大 数据 启动 的 商业 模型 ,大 量 有 价值 的 数据 已 经 在 这 些 平台 产 
生 , 这 些 网 上 互动 信息 平台 就 是 最 好 的 医疗 数据 来 源 。 

大 数据 的 使 用 可 以 有 效 地 改善 公众 健康 ,通过 整合 全 国 各 地 的 电子 病历 数据 库 , 公 共 卫 
生 部 门 可 以 实现 全 面 的 疫情 监测 ,快速 进行 响应 ,控制 传染 病 , 这 将 减少 医疗 索赔 支出 ,降低 
传染 病 感染 率 。 卫 生 部 门 检测 新 传染 病 的 速度 大 大 提高 ,疫情 快速 得 到 有 效 控制 ,降低 感染 
传染 病 的 风险 。 及 时 提供 准确 的 公众 健康 咨询 ,建立 公众 健康 风险 意识 ,可 以 帮助 人 们 创造 
更 好 的 生活 。 

由 于 医疗 行业 在 服务 亿 万 民众 时 必须 面 对 海 量 的 医疗 健康 数据 处 理 需 求 ,具有 关系 民 
生 大 计 的 特殊 地 位 ,因此 成 为 国内 率先 启动 大 数据 应 用 的 先锋 行业 之 一 。 大 数据 的 应 用 首 
当 其 冲 的 就 是 智慧 医疗 ,在 医疗 数字 化 的 过 程 中 ,病历 .影像 .远程 医疗 等 都 会 产生 大 量 的 数 
据 , 医 院 成 了 大 数据 产生 的 重要 来 源 , 把 医疗 大 数据 转换 为 经 济 价值 的 关键 是 能 够 提取 出 与 
诊疗 有 关 的 数据 。 作 为 实现 智慧 医疗 的 重要 手段 ,数据 分 析 将 帮助 解决 医疗 服务 质量 欠 佳 、 
医疗 资源 分 布 不 合理 和 医疗 体系 效率 较 低 这 三 大 问题 。 

根据 "十 三 五 ”规划 中 有 关 医 疗 卫 生 行 业 信息 化 建设 规划 ,我 国 将 重点 建设 国家 级 ,省 级 
和 地 市 级 三 级 卫生 信息 平台 ,建设 电子 档案 和 电子 病历 两 个 基础 数据 库 , 过 去 由 于 缺少 统一 
的 电子 病历 系统 (EMR) 标 准 , 中 国 的 电子 病历 系统 发 展 比较 缓慢 ,医院 之 间 不 能 实现 病 患 
信息 共享 ,医疗 服务 水 平 也 因此 受到 影响 。 为 改善 这 一 现状 ,国家 会 逐渐 加 大 对 电子 病历 的 
投入 ,各 级 医院 也 将 适应 这 一 趋势 ,加 大 在 数据 中 心 .IT 外 包 等 领域 的 投入 。 随 着 医疗 和 健 
康 数据 的 急剧 扩容 ,大 数据 出 现 几何 级 的 增长 ,未 来 信息 化 工作 的 重要 方向 就 是 充分 利用 包 
括 影像 数据 \ 检 验 检查 结果 、 病 历数 据 、 诊 疗 费用 等 在 内 的 各 种 数据 ,搭建 合理 先进 的 数据 平 
台 , 服 务 广大 医务 人 员 ,帮助 患者 康复 ,协助 科研 人 员 ,支持 政府 决策 者 。 

伴随 大 数据 广泛 应 用 于 生命 科学 研究 过 程 ,医疗 行业 面临 巨大 挑战 ,其 数据 规模 、 多 样 
化 程度 和 增长 速度 都 是 空前 的 。 一 个 基因 组 序列 文件 大 小 约 为 750MB, 一 张 普通 CT 图 像 
含有 大 约 150MB 的 数据 ,一 个 标准 的 病理 图 则 接近 5GB, 这 些 数据 量 乘 以 人 口 数 量 和 平均 
寿命 ,导致 一 个 社区 医院 累积 的 数据 量 就 可 达 数 TB 甚至 数 PB 之 多 ,而 且 其 中 还 附 含 非 结 
构 化 数据 ,如 图 像 、 视 频 等 。 图 3-8 展示 了 医疗 大 数据 的 数据 组 成 ,图 3-9 展示 了 医疗 大 数 
据 的 数据 来 源 。 

医疗 行业 的 大 数据 集 繁杂 量 大 ,信息 价值 也 多 样 且 丰富 ,对 其 进行 有 效 的 存储 、 处 理 、 查 
询 和 分 析 就 可 对 于 各 层次 决策 服务 ,小 到 某 个 临床 医生 做 出 更 为 科学 准确 的 诊断 和 用 药 决 
策 , 或 根据 患者 潜在 需求 帮助 某 个 医院 开发 全 新 自动 服务 及 个 性 化 服务 ,大 到 相关 研究 机 构 
突破 医疗 方法 和 药物 革新 ,或 支持 地 区 甚至 全 国医 疗 行业 主管 部 门 优化 服务 配置 与 医疗 资 
源 。 图 3-10 展示 了 医疗 大 数据 平台 。 
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图 3-10 医疗 大 数据 平台 
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3.5 大 数据 在 教育 上 的 应 用 


3.5.1 大 数据 教育 与 传统 教育 的 优势 


在 教育 领域 中 , 较 之 于 传统 数据 ,大 数据 有 着 自己 独特 的 优势 : 

传统 数据 主要 用 于 辅助 教育 政策 的 宏观 决策 ,针对 宏观 整体 的 教育 状况 进行 分 析 决 策 。 
而 大 数据 的 透析 可 以 针对 个 别 的 、 微 观 的 受 教育 者 在 课堂 的 状况 ,及 时 调整 教学 行为 ,实现 
个 性 化 教育 。 

从 误差 大 小 比较 看 ,传统 数据 使 用 阶段 性 评估 方法 ,在 采样 中 容易 出 现 系 统 误差 ,会 造成 评 
估 分 析 的 较 大 误差 。 而 大 数据 的 采样 采用 即 采 即 用 或 现象 记录 的 技术 性 方式 ,系统 误差 较 小 。 

数据 采集 的 来 源 不 同 、 数 据 应 用 的 方向 不 同 ,这 是 大 数据 与 传统 数据 的 最 本 质 区 别 。 传 
统 数 据 通过 考试 或 者 量 表 调查 对 学 生 数 据 进 行 周期 性 、 阶 段 性 采集 ,依靠 数据 对 学 生 的 生理 
和 心理 健康 、 学 习 状 态 及 对 学 校 的 满意 度 来 进行 评估 。 信 息 采 集 具有 事后 性 、 阶 段 性 而 非 实 
时 性 ,并 且 会 对 被 采集 者 (学 生 ) 造 成 压迫 性 。 与 之 相应 的 ,大 数据 采集 是 过 程 性 的 ,关注 每 
一 个 学 生 在 上 课 、 作 业 ,教学 互动 过 程 的 每 个 微观 表现 ,采集 在 学 生 不 自 知 的 情形 下 开展 进 
行 ,不 影响 学 生 的 正常 学 习 和 生活 。 这 些 数据 的 获取 、 整 理 . 采 编 ` 统 计 、 分 析 需 要 经 过 专门 
的 程序 和 专业 的 人 员 高 效率 的 完成 。 图 3-11 展示 了 教育 大 数据 系统 工作 流程 。 
“采集 学 生日 党 
学 习 信 息 
“采集 教师 日 党 
教育 教学 信息 
“记录 学 生 的 成 
长 记录 


“对 评价 信息 进 
行 分 类 


























大 规模 监测 


数据 采集 
系统 


日 常 评价 








基础 数据 采集 系统 
网 上 问卷 系统 
网 上 阅卷 系统 


| 














































































“到 所 的 测度 .生成 相应 的 量 
.内 部 逻辑 判断 化 评价 值 
,缺失 值 处 理 .进入 分 析 系统 
“多 选 题 拆 分 生成 报告 
.1D 连 接 大 数据 应 
DR 教育 大 数据 库 
“内置 描述 统计 算法 u 
DZANIE 上 | 。 数据 分 析 系统 
“TI 检验 算法 
。 量 尺 分 数 合成 等 “设置 报告 模板 

全 人 .快速 生成 图 表 文字 

| 报告 生成 系统 | ,结果 反馈 给 行政 部 门 、 














学 校 、 教 师 、 学 生 


图 3-11 教育 大 数据 系统 工作 流程 


3.5.2 大 数据 教学 模式 的 不 断 改善 
随 着 因特网 信息 技术 的 高 速 发 展 .大 数据 成 为 众人 瞩目 的 焦点 ,教育 作为 一 个 大 数据 应 
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用 的 重要 领域 , 必 将 发 生 革命 性 的 变化 。 

在 教育 中 ,大 数据 的 运用 可 以 改善 学 生 的 学 习 成 绩 ,为 学 生 提 供 个 性 化 服务 。 通 过 大 数 
据 分 析 可 以 发 现 常规 研究 中 所 忽视 的 重要 信息 ,革新 教师 的 教学 模式 、 改 变 学 生 的 学 习 效 
果 、 优 化 教育 政策 的 制定 方式 方法 。 目 前 ,网 络 在 线 教育 和 大 规模 开放 式 网 络 课程 就 是 大 数 
据 在 教育 中 的 典型 应 用 。 

美国 国家 教育 统计 中 心 等 政府 机 构 已 经 开始 从 事 这 项 工作 ,他 们 在 各 教育 机 构 收集 学 
生 学 习 行 为 考试 成 绩 、 职 业 规 划 等 重要 信息 ,并 利用 大 数据 方法 进行 分 析 。 通 过 对 大 数据 
的 运用 ,美国 教育 部 创建 了 学 习 分 析 系 统 ,建立 数据 挖掘 、 数 据 模 化 和 典型 案例 的 联合 框架 ， 
并 以 此 向 教育 实施 者 提供 更 多 、 更 好 、 更 精确 的 信息 ,从 而 帮助 其 回答 学 习 者 如 何 学 习 等 不 
太 好 回答 的 现实 问题 。 

美国 联邦 政府 教育 部 为 了 顺应 并 推动 这 一 趋势 ,一 项 大 数据 计划 于 2012 年 在 公共 教育 
中 被 实施 ,该 计划 斥资 2 亿美 元 ,推动 大 数据 在 改善 教育 中 的 运用 。2014 年 4 月 10 日 , 美 
国联 邦 教育 部 技术 办 公 室 发 布 了 该 计划 的 部 分 综述 数据 和 案例 ,并 宣布 从 财政 预算 中 拿 出 
2500 万 美元 用 于 教育 数据 挖掘 和 学 习 分 析 。 


3.5.3 教育 大 数据 市 场 的 广阔 前 景 


美国 的 一 些 企业 已 经 成 功 地 在 教育 中 实现 了 大 数据 处 理 的 商业 化 运作 。 如 全 球 最 大 的 
IT R IBM 公司 与 亚 拉巴 马 州 的 莫 白 儿 县 公共 学 区 进行 合作 ,通过 对 学 生 数据 探测 和 行 
为 干预 ,改善 学 生 的 学 习 成 绩 。 在 IBM 公司 的 技术 支持 下 ,公司 建立 了 跨 校 学 习 数据 库 , 收 
RT 100 多 万 名 学 生 的 相关 记录 和 700 多 万 个 课程 记录 的 海量 数据 ,软件 分 析 结 果 不 仅 能 
够 显示 出 学 生 的 成 绩 、 出 勤 .辍学 率 、 入 学 率 的 趋势 ,还 能 够 让 用 户 探 测 性 地 预知 导致 学 生 辍 
学 和 学 习 成 绩 下 滑 的 警告 性 信号 ; 允许 用 户 发 现 那些 导致 无 谓 消耗 的 特定 课程 ,揭示 何 种 
资源 和 干预 是 最 成 功 的 ; 通过 监控 学 生 阅读 电子 材料 情况 网络 交流 情况 ,电子 版 作业 提 
交情 况 ,在 线 测试 情况 ,可 以 让 老师 及 时 诊断 每 个 学 生 的 问题 所 在 ,以 备 及 时 提出 改进 
建议 。 

在 未 来 教育 中 ,高 等 教育 的 趋向 将 是 个 性 化 的 学 习 。 在 高 等 教育 个 性 化 新 时 代 中 课程 
材料 将 适应 性 地 满足 每 个 学 生 的 学 习 独 特需 求 ,电子 教育 、 网 络 教育 主动 教育 是 其 显著 特 
点 。 大 数据 分 析 可 以 应 用 于 教育 中 的 数据 挖掘 , 目前 教育 机 构 已 经 积累 了 大 量 未 结构 化 和 
结构 化 的 数据 ,能 使 研究 者 有 更 多 的 新 机 会 探究 学 生 的 学 习 环境 。 通 过 监测 这 些 信息 ,形成 
教育 大 数据 库 , 能 够 进一步 总 结 教育 规律 ,帮助 教师 理解 学 生 、 调 整 教育 方案 ,掌握 学 生 学 习 
全 过 程 ,提供 个 性 化 的 学 习 模式 ,提高 学 生 的 学 习 效果 。 

对 于 大 数据 的 应 用 ,在 数据 收集 中 需要 解决 以 下 几 个 关键 问题 。 一 是 数据 收集 标准 化 。 
收集 数据 一 开始 就 要 标准 化 ,使 用 直观 的 方法 对 输入 数据 分 类 ,为 数据 分 析 做 好 基础 。 二 是 
数据 获得 问题 。 解 决 好 海量 数据 的 获得 不 仅仅 是 技术 问题 ,有 时 还 会 遇 到 法 律 问题 和 伦理 
道德 问题 。 三 是 数据 收集 者 数量 和 质量 问题 。 既 要 满足 收集 速度 和 精度 要 求 , 又 需要 满足 
数据 质量 保证 要 求 。 总 之 ,大 数据 的 教育 应 用 可 以 为 学 生 提供 一 个 量 身 定 做 的 个 性 化 学 习 
环境 ,一 个 教育 问题 早期 预警 系统 ,一 个 灵活 调整 的 可 控 教育 系统 ; 为 教师 了 解 学 生 学 习 途 
径 和 方法 提供 了 寻 新 的 .可 视 的 、 可 量化 的 新 手段 。 
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3.5.4 大 数据 变革 教育 应 用 的 实践 措施 


(1) 对 学 生 的 发 展 进行 多 元 评估 。 学 生 好 成 绩 的 取得 有 两 种 途径 : 一 是 依靠 出 色 的 逻 
辑 思 维 能 力 取得 ,二 是 依靠 记忆 力 取得 。 依 靠 记忆 力 可 以 取得 好 成 绩 , 却 无 法 培养 学 生 的 高 
级 思维 能 力 。 依 靠 记忆 力 取 得 的 好 成 绩 可 以 掩盖 学 生 在 学 习 发 展 过 程 中 的 不 足 和 风险 。 而 
大 数据 可 以 区 分 这 两 种 差异 ,发 现 和 区 分 这 个 差异 有 助 于 教育 工作 者 及 时 对 相应 的 学 生 提 
供 针对 性 的 帮助 ,发 现成 绩 所 反映 不 了 的 发 展 问题 。 

(2) 对 学 生 学 习 实 现 过 程 性 评估 。 教 育 中 的 大 数据 可 以 监控 学 生 学 习 流程 ,发 现 学 生 
的 学 习 常 态 ,通过 数据 流 的 变动 分 析 , 教 育 工作 者 可 以 观察 到 课堂 流程 改进 的 效果 ,促进 教 
学 的 改革 和 发 展 ; 通过 学 生 学 习 行 为 记录 分 析 , 捕 捉 学 生 在 教室 中 的 微观 行为 ,实现 大 数据 
和 课堂 进程 的 结合 ,了 解 学 生 知识 掌握 度 和 兴趣 点 ,促进 教学 效果 反思 。 

(3) 对 学 生 课外 学 习 轨 迹 实现 积累 监测 。 学 生 家 长 使 用 手机 可 以 及 时 获取 学 校 通知 公 
告 ,记录 学 生 的 家 庭 学 习 情况 ,通过 区 域 性 的 数据 统计 ,获取 有 研究 意义 、 有 价值 的 数据 报 
告 ,掌握 学 生 课外 学 习 轨 迹 ,加 强 学 生 学 习 氛 围 建设 。 

随 着 大 数据 时 代 的 到 来 ,社会 科学 领域 随 之 受到 冲击 ,从 关注 宏观 整体 走向 关注 微观 个 
体 ,对 于 教育 领域 来 说 ,大 数据 的 应 用 让 研究 个 体 学 习 成 为 可 能 ,让 专门 培养 和 针对 性 训练 
成 为 可 能 ,从 而 比 任何 时 候 都 更 促进 入 类 自身 的 发 展 和 飞越 。 


3.6 本章 小 结 


本 章 介 绍 了 大 数据 的 应 用 价值 ,数据 的 生成 .分析 、 存 储 、 分 享 、 检 索 、 消 费 构 成 了 大 数据 
的 生态 系统 ,通过 大 数据 技术 融合 社会 应 用 ,让 数据 参与 决策 ,发 掘 找到 大 数据 真正 有 效 的 
价值 ,进而 改变 人 们 未 来 ,革新 生活 模式 ,产生 社会 变化 ,引发 积极 影响 。 

大 数据 必 将 在 电子 商务 、 金 融 、 媒 体 、 医 疗 、 教 育 等 行业 得 到 广泛 的 应 用 ,给 人类 社会 带 
来 深刻 变革 ,产生 巨大 的 价值 。 











第 2 篇 大 数据 云 计算 关键 技术 


第 4 


it 


分 布 式 计算 框架 


大 数据 云 计算 是 由 分 布 式 计算 (Distributed Computing) 并行 计 算 (Parallel Computing) 发 
展 而 来 的 。 大 数据 处 理 根据 需求 访问 计算 机 和 存储 系统 ,计算 可 能 在 本 地 计算 机 或 远程 服 
务 器 中 ,也 可 能 在 大 量 的 分 布 式 计算 机 上 运行 ,因而 分 布 式 计算 和 并 行 计算 是 实现 云 计算 的 
技术 支撑 。 


4.1 分 布 式 计算 基本 概念 


分 布 式 计算 和 并 行 计 算是 相互 关联 的 两 个 不 同 概念 ,成 为 实现 云 计 算 的 关键 技术 。 分 
布 式 计算 和 并 行 计算 由 来 已 久 , 但 是 面向 云 计 算 应 用 领域 的 相关 技术 有 其 自己 的 特点 和 实 
现 原则 。 


4.1.1 分 布 式 计算 与 并 行 计算 

下 面 描述 分 布 式 计算 与 并 行 计算 的 概念 ,并 对 两 者 进行 比较 。 

1. 分 布 式 计算 

传统 上 认为 ,分 布 式 计 算是 一 种 把 需要 进行 大 量 计 算 的 数据 分 割 成 小 块 , 由 多 台 计 算 机 
分 别 计算 ,再 上 传 运算 结果 ,将 结果 合并 起 来 得 出 最 后 结果 的 计算 方式 。 也 就 是 说 ,分 布 式 
计算 一 般 是 指 通过 网 络 将 多 个 独立 的 计算 节点 ( 即 物理 服务 器 ) 连 接 起 来 共同 完成 一 个 计算 
任务 的 计算 模式 。 通 常 来 说 ,这 些 节 点 都 是 物理 独立 的 ,它们 可 能 彼此 距离 很 近 , 处 于 同一 
个 物理 IDC 内 部 ; 或 相距 很 远 ,分 布 在 Internet 上 。 现 在 对 分 布 式 计算 有 了 更 广义 的 定义 : 
即使 是 在 同一 台 服 务 器 上 运行 的 不 同 进程 ,只 要 通过 消息 传递 机 制 而 非 共享 全 局 数据 的 形 
式 来 协调 ,并 用 于 共同 完成 某 个 特定 任务 的 计算 ,也 被 认为 是 分 布 式 计算 。 但 在 本 书 中 ,如 
未 特别 指明 ,分 布 式 计 算 指 的 是 多 个 物理 节点 传统 分 布 式 计算 。 
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2. 并 行 计算 

并 行 计算 一 般 是 指 许多 指令 得 以 同时 进行 的 计算 模式 ,其 实 就 是 指 同时 使 用 多 种 计算 
资源 解决 计算 问题 的 过 程 。 并 行 计算 可 以 划分 成 时 间 并 行 和 空间 并 行 。 时 间 并 行 即 流水 线 
技术 , 指 在 程序 执行 时 多 条 指令 重 县 进行 操作 的 一 种 准 并 行 处 理 实现 技术 。 空 间 并 行使 用 
多 个 处 理 器 执行 并 发 计算 ,当前 研究 的 主要 是 空间 的 并 行 问题 。 空 间 上 的 并 行 导致 两 类 并 
行 机 的 产生 ,分 为 单 指令 流 多 数据 流 (SIMD) 和 多 指令 流 多 数据 流 (MIMD)。 单 指令 流 多 数 
据 流 是 一 种 采用 一 个 控制 器 来 控制 多 个 处 理 器 ,同时 对 一 组 数据 (又 称 为 “数据 向 量 ”) 中 的 
每 一 个 分 别 执行 相同 的 操作 ,从 而 实现 空间 上 的 并 行 性 的 技术 。 多 指令 流 多 数据 流 是 使 用 
多 个 控制 器 来 异步 地 控制 多 个 处 理 器 ,从 而 实现 空间 上 的 并 行 性 的 技术 。MIMD 类 的 机 器 
又 可 分 为 常见 的 5 类; 并行 向 量 处 理 机 (PVP) 、 对 称 多 处 理 机 (SMP)、 大 规模 并 行 处 理 机 
(MPP) ,工作 站 机 群 (COW) ,分布 式 共享 存储 处 理 机 (DSM) 。 

并 行 向 量 处 理 机 最 大 的 特点 是 系统 中 的 CPU 是 专门 定制 的 向 量 处 理 器 (VP)。 系 统 还 
提供 共享 存储 器 及 与 VP 相连 的 高 速 交叉 开关 。 

对 称 多 处 理 机 是 一 种 多 处 理 机 硬件 架构 ,有 两 个 或 更 多 的 相同 的 处 理 机 (处 理 器 ) 共 享 
同一 主 存 , 由 一 个 操作 系统 控制 。 使 用 对 称 多 处 理 的 计算 机 系统 被 称 为 "对 称 多 处 理 机 ?或 
“对 称 多 处 理 机 系统 ”。 在 对 称 多 处 理 机 系统 上 ,任何 处 理 器 可 以 运行 任何 任务 ,不 管 任务 的 
数据 在 内 存 的 什么 地 方 , 只 要 一 个 任务 没有 同时 运行 在 多 个 处 理 器 上 面 。 有 了 操作 系统 的 
支持 ,对 称 多 处 理 机 系统 就 能 够 轻易 地 让 任务 在 不 同 的 处 理 器 之 间 移 动 , 以 此 来 有 效 的 均衡 
负载 。 

大 规模 并 行 处 理 机 是 由 多 个 微 处 理 器 、 局 部 存储 器 及 网 络 接口 电路 构成 的 节点 组 成 的 
并 行 计算 体系 ,节点 间 以 定制 的 高 速 网 络 互联 。 大 规模 并 行 处 理 机 是 一 种 异步 的 多 指令 流 
多 数据 流 ,因为 它 的 程序 有 多 个 进程 ,它们 分 布 在 各 个 微 处 理 器 上 ,每 个 进程 有 自己 独立 的 
地 址 空间 ,进程 之 间 以 消息 传递 进行 相互 通信 。 

工作 站 机 群 可 以 近似 看 成 一 个 没有 本 地 磁盘 的 工作 站 机 群 ,网 络 接 口 是 松 看 合 的 , 接 到 
1/O 总 线 上 而 不 是 像 MPP 那样 直接 接 到 处 理 器 存储 总 线 上 。 

分 布 式 共 享 存储 处 理 机 也 被 视 为 一 种 分 散 的 全 域 地 址 空间 ,属于 计算 机 科学 的 一 种 机 
制 ,可 以 透 过 硬件 或 软件 来 工作 。 分 散 式 共 享 内 存 主要 使 用 在 从 集 计算 机 中 ,从 集 计 算 机 中 
的 每 一 个 网 络 节 点 (Node) 都 有 非 共享 的 内 存 空间 与 共享 的 内 存 空 间 。 该 共享 内 存 的 位 置 
空间 (Address Space) 在 所 有 节点 是 一 致 的 。 

现在 ,多 核 计算 和 对 称 多 处 理 计算 往往 是 综合 使 用 的 。 例 如 ,一 台 服 务 器 上 可 以 安装 
2 一 4 个 物理 处 理 器 芯片 ,每 个 物理 处 理 器 芯片 上 有 2 一 4 个 核 。 对 于 对 称 多 处 理 操作 系统 
来 说 ,每 个 CPU 都 是 平等 的 ,任何 任务 都 可 以 从 一 个 处 理 器 迁移 到 另 一 个 处 理 器 ,而 与 任 
务 所 处 的 内 存 位 置 无 关 。 操 作 系统 会 确保 处 理 器 之 间 的 负载 均衡 ,因此 称 为 "对 称 ” 多 处 理 。 
对 称 多 处 理 计 算 的 瓶颈 在 于 总 线 带 宽 。 由 于 多 个 物理 处 理 器 共享 总 线 , 因 此 制约 CPU 的 
原因 往往 是 总 线 冲 突 。 所 以 ,基于 对 称 多 处 理 架 构 的 系统 一 般 不 会 使 用 超过 32 个 处 理 器 
芯片 。 


4.1.2 分 布 式 计算 和 并 行 计算 的 比较 
分 布 式 计算 和 并 行 计算 的 共同 点 都 是 将 大 任务 化 为 小 任务 。 但 是 ,分 布 式 的 任务 互相 
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之 间 有 独立 性 ,并 行程 序 并 行 处 理 的 任务 包 之 间 有 很 大 的 联系 。 

分 布 式 计算 中 ,上 个 任务 的 结果 未 返回 或 者 是 结果 处 理 错误 ,对 下 一 个 任务 的 处 理 几 乎 
没有 什么 影响 。 因 此 ,分 布 式 的 实时 性 要 求 不 高 ,而 且 允 许 存在 计算 错误 (因为 每 个 计算 任 
务 给 好 几 个 参与 者 计算 ,上 传 结果 到 服务 器 后 要 比较 结果 ,然后 对 结果 差异 大 的 进行 验证 ) 。 

并 行 计算 的 每 一 个 任务 块 都 是 必要 的 ,每 个 任务 包 都 要 处 理 , 而 且 计 算 结 果 相 互 影 响 ， 
就 要 求 每 个 的 计算 结果 要 绝对 正确 ,而 且 在 时 间 上 要 尽量 做 到 同步 。 并 且 分 布 式 的 很 多 任 
务 块 可 以 根本 就 不 处 理 , 有 大 量 的 无 用 数据 块 ; 而 并 行 处 理 不 同 , 它 的 任务 包 个 数 相对 有 
限 ,在 一 个 有 限 的 时 间 应 该 是 可 能 完成 的 。 

并 行 计算 和 分 布 式 计算 在 很 多 时 候 是 同时 存在 的 。 例 如 ,一 个 系统 在 整体 上 采用 多 个 
节点 进行 分 布 式 计算 , 节 点 之 间 靠 消息 传递 保持 协同 ,而 在 每 个 节点 内 部 又 采用 并 行 计 算 来 
提高 性 能 ,这 种 计算 模式 就 可 以 称 为 分 布 式 并 行 计算 。 一 般 来 说 ,分 布 式 计算 有 如 下 特征 : 

(1) 由 于 网 络 可 跨 的 范围 非常 广 ,因此 如 果 设 计 得 当 , 分 布 式 计算 的 可 扩展 性 将 会 非 








常 好 。 
(2) 分 布 式 计算 中 的 每 个 节点 都 有 自己 的 处 理 器 和 主 存 , 并 且 该 处 理 器 只 能 访问 自己 
的 主 存 。 

(3) 在 分 布 式 计算 中 ,节点 之 间 的 通信 以 消息 传递 为 主 ,数据 传输 较 少 ,因此 每 个 节点 
看 不 到 全 局 ,只 知道 自己 那 部 分 的 输入 和 输出 。 

(4) 分 布 式 计算 中 节点 的 灵活 性 很 大 , 即 节点 可 随时 加 入 或 退出 ,节点 的 配置 也 不 尽 相 
同 , 但 是 拥有 良好 设计 的 分 布 式 计算 机 制 应 保证 整个 系统 可 靠 性 不 受 单个 节点 的 影响 。 


4.2 Hadoop 系统 介绍 


Hadoop 是 由 Apache 基金 会 开发 ,设计 用 来 在 由 通用 计算 设备 组 成 的 大 型 集群 上 执行 
分 布 式 应 用 的 基础 框架 。 用 户 可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 开发 分 布 式 程序 , 充 
分 利用 集群 的 威力 高 速 运算 和 存储 。 简 单 地 说 ,Hadoop 是 一 个 可 以 更 容易 开发 和 运行 处 
理 大 规模 数据 的 软件 平台 。 


4.2.1 Hadoop 发 展 历程 


Hadoop 由 Apache Software Foundation 公司 于 2005 年 秋天 作为 Lucene 的 子 项 目 
Nutch 的 一 部 分 正式 引入 。 它 受到 最 先 由 Google Lab 开发 的 MapReduce 和 Google File 
System 的 启发 。2006 年 3 月 ,MapReduce 和 Nutch Distributed File System (NDFS) 分 别 
被 纳入 称 为 Hadoop 的 项 目 中 。Nutch 中 的 NDFS 和 MapReduce 实现 的 应 用 远 不 只 是 搜 
索 领域 ,从 Nutch 转移 出 来 成 为 一 个 独立 的 Lucene 子 项 目 , 称 为 Hadoop。 大 约 在 同一 时 
间 ,Doug Cutting 加 入 雅虎 公司 ,Yahoo 提供 一 个 专门 的 团队 和 资源 将 Hadoop 发 展 成 一 个 
可 在 网 络 上 运行 的 系统 。 在 2008 年 2 月 .雅虎 宣布 其 搜索 引擎 产品 部 署 在 一 个 拥有 一 万 个 
内 核 的 Hadoop 集群 上 。2008 年 1 月 ,Hadoop 已 成 为 Apache 顶级 项 目 , 证 明 它 是 成 功 的 ， 
是 一 个 多 样 化 、 活 跃 的 社区 。 通 过 这 次 机 会 ,Hadoop 成 功 地 被 雅虎 之 外 的 很 多 公司 应 用 ， 
如 Last. fm, Facebook 和 《纽约 时 报 》。 
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2008 年 4 月 ,Hadoop 打破 世界 纪录 ,成 为 最 快 排序 1TB 数据 的 系统 。Hadoop 运行 在 
一 个 包括 910 节点 的 群集 ,在 209s 内 排序 了 1TB 的 数据 (还 不 到 三 分 半 钟 ) ,击败 了 前 一 年 
的 297s 冠军 。 同 年 11 月 ,谷歌 在 报告 中 声称 , 它 的 MapReduce 实现 执行 1TB 数据 的 排序 
只 用 了 68s。2009 年 5 月 ,有 报道 宣称 Yahoo 的 团队 使 用 Hadoop 对 1TB 的 数据 进行 排序 
只 花 了 62s 的 时 间 。 构 建 因 特 网 规模 的 搜索 引擎 需要 大 量 的 数据 ,因此 需要 大 量 的 机 器 来 
进行 处 理 。 

Hadoop 大 事 记 

2004 年 ,最 初 的 版 本 (现在 称 为 HDFS 和 MapReduce) 由 Doug Cutting 和 Mike 
Cafarella 开始 实施 。 

2005 年 12 月 ,Nutch 移植 到 新 的 框架 ,Hadoop 在 20 个 节点 上 稳定 运行 。 

2006 年 1 月 ,Doug Cutting 加 入 雅虎 。 

2006 年 2 月 ,Apache Hadoop 项 目 正式 启动 以 支持 MapReduce 和 HDFS 的 独立 发 展 。 

2006 年 2 月 ,雅虎 的 网 格 计算 团队 采用 Hadoop。 

2006 年 4 月 ,标准 排序 (每 个 节点 10GB) 在 188 个 节点 上 运行 47. 9 个 小 时 。 

2006 年 5 月 ,雅虎 建立 了 一 个 300 个 节点 的 Hadoop 研究 集群 。 

2006 年 5 月 ,标准 排序 在 500 个 节点 上 运行 42 个 小 时 (硬件 配置 比 4 月 的 更 好 ) 。 

2006 年 11 月 ,研究 集群 增加 到 600 个 节点 。 

2006 年 12 月 ,标准 排序 在 20 个 节点 上 运行 1. 8 个 小 时 ,100 个 节点 3. 3 小 时 ,500 个 
节点 5.2 小 时 ,900 个 节点 7. 8 个 小 时 。 

2007 年 1 月 ,研究 集群 达到 900 个 节点 。 

2007 年 4 月 ,研究 集群 达到 两 个 1000 个 节点 的 集群 。 

2008 年 4 月 ,赢得 世界 最 快 1TB 数据 排序 ,在 900 个 节点 上 用 时 209s。 

2008 年 10 月 ,研究 集群 每 天 装载 10TB 的 数据 。 

2009 年 3 月 ,17 个 集群 总 共 24 000 台 机 器 。 

2009 年 4 月 ,赢得 每 分 钟 排序 ,59s 内 排序 500GB( 在 1400 个 节点 上 ) 和 173min 内 排序 
100TB 数据 (在 3400 个 节点 上 ) 。 


4.2.2 Hadoop 使 用 场景 和 特点 


Hadoop 最 适合 的 就 是 海量 数据 处 理 分 析 。 应 用 Hadoop ,海量 数据 被 分 割 于 多 个 节 
点 ,然后 由 每 一 个 节点 并 行 计算 ,将 得 出 的 结果 归并 到 输出 。 同 时 第 一 阶段 的 输出 又 可 以 作 
为 下 一 阶段 计算 的 输入 ,因此 可 以 想象 到 一 个 树 状 结构 的 分 布 式 计算 图 在 不 同 阶 段 都 有 不 
同 产 出 ,同时 并 行 和 串 行 结合 的 计算 也 可 以 很 好 地 在 分 布 式 集群 的 资源 下 得 以 高 效 的 处 理 。 

下 面 列举 Hadoop 的 一 些 主要 的 特点 : 

。 扩容 能 力 (Scalable): 能 可 靠 地 (Reliably) 存 储 和 处 理 千 万 亿 字 节 (PB) 数 据 。 

。 成 本 低 (Economical) : 可 以 通过 普通 机 器 组 成 的 服务 器 群 来 分 发 及 处 理 数据 。 这 些 
服务 器 群 总 计 可 达 数 千 个 节点 。 
高 效率 (Efficient): 通过 分 发 数据 , Hadoop 可 以 在 数据 所 在 的 节点 上 并 行 地 
(Parallel) 处 理 它们 ,这 使 得 处 理 非常 的 快速 。 
。 可 靠 性 (Reliable): Hadoop 能 自动 地 维护 数据 的 多 份 复制 ,并 且 在 任务 失败 后 能 自 

动 地 重新 部 署 (Redeploy) 计 算 任务 。 
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2.3 Hadoop 项 目 组 成 


今天 , Hadoop 是 一 个 分 布 式 计算 基础 架构 这 把 “大 伞 " 下 相关 子 项 目的 集合 。 这 些 项 
目 属 于 Apache 软件 基金 会 (http://hadoop. apache. org) ,为 开源 软件 项 目 社 区 提供 支持 。 


虽然 Hadoop 最 出 名 的 是 MapReduce 及 其 分 布 式 文件 
系统 (HDFS, 从 NDFS 改名 而 来 ) ,但 还 有 其 他 子 项 目 | "S | Ce | Hve | HBa 
提供 配套 服务 ,其 他 子 项 目 提供 补充 性 服务 。 这 些 子 | MapReduce | nors | 2° 
项 目的 简要 描述 如 下 ,其 技术 栈 如 图 4-1 所 示 。 


4.3 


























Keeper 


Core: 一 系列 分 布 式 文件 系统 和 通用 I/O 的 组 ee ae 


件 和 接口 (序列 化 、Java RPC 和 持久 化 数据 图 4-1 Hadoop 的 子 项 目 
结构 )。 

Avro: 一 种 提供 高 效 、 跨 语言 RPC 的 数据 序列 系统 ,持久 化 数据 存储 (在 本 书写 作 
期 间 ,Avro 只 是 被 当 作 一 个 新 的 子 项 目 创建 ,而 且 尚 未 有 其 他 Hadoop 子 项 目 在 使 
用 它 ) 。 

MapReduce: 分 布 式 数据 处 理 模式 和 执行 环境 ,运行 于 大 型 商用 机 集群 。 

HDFS: 分 布 式 文件 系统 ,运行 于 大 型 商用 机 集群 。 

Pig: 一 种 数据 流 语言 和 运行 环境 ,用 以 检索 非常 大 的 数据 集 。Pig 运行 在 
MapReduce 和 HDFS 的 集群 上 。 

HBase: 一 个 分 布 式 的 、 列 存储 数据 库 。HBase 使 用 HDFS 作为 底层 存储 ,同时 支 
持 MapReduce 的 批量 式 计 算 和 点 查询 (随机 读 取 ) 。 

ZooKeeper: 一 个 分 布 式 的 、 高 可 用 性 的 协调 服务 。ZooKeeper 提供 分 布 式 锁 之 类 
的 基本 服务 用 于 构建 分 布 式 应 用 。 

Hive: 分 布 式 数据 仓库 。Hive 管理 HDFS 中 存储 的 数据 ,并 提供 基于 SQL 的 查询 
语言 (由 运行 时 引擎 翻译 成 MapReduce 作业 ) 用 以 查询 数据 。 

Chukwa: 分 布 式 数据 收集 和 分 析 系 统 。Chukwa 运行 HDFS 中 存储 数据 的 收集 器 ， 
它 使 用 MapReduce 来 生成 报告 。 











分 布 式 文件 系统 


分 布 式 文件 系统 (Distributed File System) 是 指 文件 系统 管理 的 物理 存储 资源 不 一 定 
直接 连接 在 本 地 节点 上 ,而 是 通过 计算 机 网 络 与 节点 相连 。 分 布 式 文件 系统 的 设计 基于 客 
户 端 /服务 器 模式 。 一 个 典型 的 网 络 可 能 包括 多 个 供 多 用 户 访问 的 服务 器 。 另 外 ,对 等 特性 
允许 一 些 系统 扮演 客户 端 和 服务 器 的 双重 角色 。 
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.3.1 分 布 式 文件 系统 概述 


文件 系统 是 操作 系统 的 一 个 重要 组 成 部 分 ,通过 操作 系统 管理 存储 空间 ,向 用 户 提 供 统 
一 的 .对象 化 的 访问 接口 ,屏蔽 对 物理 设备 的 直接 操作 和 资源 管理 。 根 据 计 算 环境 和 所 提供 
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功能 的 不 同 , 文 件 系 统 可 划分 为 本 地 文件 系统 (Local File System) 和 分 布 式 文件 系统 。 本 
地 文件 系统 是 指 文件 系统 管理 的 物理 存储 资源 直接 连接 在 本 地 节点 上 ,处 理 器 通过 系统 总 
线 可 以 直接 访问 。 分 布 式 文件 系统 是 指 文件 系统 管理 的 物理 存储 资源 不 一 定 直接 连接 在 本 
地 节点 上 ,而 是 通过 计算 机 网 络 与 节点 相连 。 

由 于 因特网 应 用 的 不 断 发 展 , 本 地 文件 系统 由 于 单个 节点 本 身 的 局 限 性 ,已 经 很 难 满足 
海量 数据 存 取 的 需要 了 ,因而 不 得 不 借助 分 布 式 文件 系统 ,把 系统 负载 转移 到 多 个 节点 上 。 
传统 的 分 布 式 文件 系统 (如 NFS) 中 ,所 有 数据 和 元 数据 存放 在 一 起 ,通过 单一 的 存储 服务 
器 提供 。 这 种 模式 一 般 称 为 带 内 模式 (In-band Mode)。 随 着 客户 端 数 目的 增加 ,服务 器 就 
成 了 整个 系统 的 瓶颈 。 因 为 系统 所 有 的 数据 传输 和 元 数据 处 理 都 要 通过 服务 器 ,不 仅 单个 
服务 器 的 处 理 能 力 有 限 , 存 储 能 力 受 到 磁盘 容量 的 限制 ,吞吐 能 力也 受到 磁盘 1/0 和 网 络 
1/O 的 限制 。 在 当今 对 数据 存储 量 要 求 越 来 越 大 的 因特网 应 用 中 ,传统 的 分 布 式 文件 系统 
已 经 很 难 满足 应 用 的 需要 。 

如 今 ,Google 作为 云 计 算 领 域 的 带头 大 哥 , 开 发 了 可 扩展 的 分 布 式 文件 系统 GFS 
(Google File System) ,对 于 大 型 分 布 式 海量 数据 进行 管理 的 应 用 。2003 年 ,Google 发 表 论 
文公 开 了 分 布 式 文件 系统 GFS 的 设计 思想 ,引起 业界 的 高 度 重 视 , 开 发 出 多 种 类 似 文件 系 
统 , 如 HDFS( Hadoop Distressed File System) 。 

















4.3.2 HDFS 架构 


Hadoop 项 目 中 最 底部 .最 基础 的 是 HDFS, 适 合 运 行 在 通用 硬件 (Commodity 
Hardware) 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 。 但 同时 , 它 
和 其 他 的 分 布 式 文件 系统 的 区 别 也 是 很 明显 的 。HDFS 是 一 个 高 度 容错 性 的 系统 ,适合 部 
署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数据 访问 ,非常 适合 大 规模 数据 集 上 的 应 用 。 
HDFS 放宽 了 一 部 分 POSIX 约束 来 实现 流 式 读 取 文件 系统 数据 的 目的 。HDFS 在 最 开始 
是 作为 Apache Nutch 搜索 引擎 项 目的 基础 架构 而 开发 的 。 

对 外 部 客户 端 而 言 ,HDFS 就 像 一 个 传统 的 分 级 文件 系统 ,可 以 创建 ,删除 ,移动 或 重 命 
名 文件 等 。HDFS 采用 Master/Slave 架构 ,基于 一 组 特定 的 节点 构建 ,如 图 4-2 所 示 。 
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Replicated data blocks 
图 4-2 Hadoop 集群 的 简化 视图 
HDFS 集群 由 一 个 NameNode 和 一 定数 目的 DataNodes 组 成 。NameNode 是 一 个 中 


心服 务 器 ,负责 管理 文件 系统 的 名 字 空 间 (Namespace) 及 客户 端 对 文件 的 访问 。 集 群 中 的 
DataNode 一 般 是 一 个 节点 一 个 ,负责 管理 它 所 在 节点 上 的 存储 。HDFS 暴露 了 文件 系统 的 
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名 字 空 间 , 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 从 内 部 看 ,一 个 文件 其 实 被 分 成 一 个 或 
多 个 数据 块 ,这 些 块 存储 在 一 组 DataNode 上 。NameNode 执行 文件 系统 的 名 字 空 间 操作 , 
比如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 确定 数据 块 到 具体 DataNode 节点 的 映射 。 
DataNode 负责 处 理 文件 系统 客户 端的 读 写 请 求 。 在 NameNode 的 统一 调度 下 进行 数据 块 
的 创建 .删除 和 复制 ,如 图 4-3 所 示 。 
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图 4-3 HDFS 结构 示意 图 


存储 在 HDFS 中 的 文件 被 分 成 块 ,然后 将 这 些 块 复制 到 多 个 计算 机 中 (DataNode)。 这 
与 传统 的 RAID 架构 大 不 相同 。 块 的 大 小 (通常 为 64MB) 和 复制 的 块 数量 在 创建 文件 时 由 
客户 端 决定 。NameNode 可 以 控制 所 有 文件 操作 。HDFS 内 部 的 所 有 通信 都 基于 标准 的 
TCP/IP 协议 。 


4.3.3 HDFS 设计 特点 


下 面 说 说 HDFS 的 几 个 设计 特点 (对 于 框架 设计 值得 借鉴 )。 

1. Block 的 放置 

默认 不 配置 。 一 个 Block 会 有 三 份 备份 ,一 份 放 在 NameNode 指定 的 DataNode 上 , 另 
一 份 放 在 与 指定 DataNode 非 同 一 Rack 上 的 DataNode 上 ,最 后 一 份 放 在 与 指定 DataNode 
同一 Rack 上 的 DataNode 上 。 备 份 无 非 就 是 为 了 数据 安全 ,考虑 同一 Rack 的 失败 情况 及 
不 同 Rack 之 间 数 据 拷贝 性 能 问题 就 采用 这 种 配置 方式 。 

2. 心跳 检测 

心跳 检测 DataNode 的 健康 状况 ,如 果 发 现 问题 就 采取 数据 备份 的 方式 来 保证 数据 的 
安全 性 。 

3. 数据 复制 

场景 为 DataNode 失败 、 需 要 平衡 DataNode 的 存储 利用 率 和 需要 平衡 DataNode 数据 
交互 压力 等 情况 。 这 里 先 说 一 下 ,使 用 HDFS 的 balancer 命令 ,可 以 配置 一 个 Threshold 
来 平衡 每 一 个 DataNode 磁盘 利用 率 。 例 如 设置 了 Threshold 为 10%, 那 么 执行 balancer 
命令 的 时 候 ,首先 统计 所 有 DataNode 的 磁盘 利用 率 的 均值 , 然后 判断 如 果菜 一 个 
DataNode 的 磁盘 利用 率 超过 这 个 均值 Threshold 以 上 ,那么 将 会 把 这 个 DataNode 的 
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Block 转移 到 磁盘 利用 率 低 的 DataNode 上 ,这 对 于 新 节点 的 加 入 来 说 十 分 有 用 。 

4. 数据 校 验 

采用 CRC32 作 数据 校 验 。 在 文件 Block 写 入 的 时 候 除 了 写 入 数据 外 ,还 会 写 入 校 验 信 
息 , 在 读 取 的 时 候 需要 校 验 后 再 读 入 。 

5. NameNode 是 单 点 

如 果 失 败 的 话 ,任务 处 理 信息 将 会 记录 在 本 地 文件 系统 和 远 端 的 文件 系统 中 。 

6. 数据 管道 性 的 写 入 

当 客 户 端 要 写 入 文件 到 DataNode 上 ,首先 客户 端 读 取 一 个 Block, 然 后 写 到 第 一 个 
DataNode 上 ,再 由 第 一 个 DataNode 传递 到 备份 的 DataNode 上 ,一 直到 所 有 需要 写 入 这 个 
Block 的 NataNode 都 成 功 写 入 ,客户 端 才 会 继续 开始 写 下 一 个 Block。 

7. 安全 模式 

安全 模式 主要 是 为 了 系统 启动 的 时 候 检查 各 个 DataNode 上 数据 块 的 有 效 性 ,同时 根 
据 策略 必要 的 复制 或 者 删除 部 分 数据 块 。 在 分 布 式 文件 系统 启动 的 时 候 , 开 始 时 会 有 安全 
模式 , 当 分 布 式 文件 系统 处 于 安全 模式 的 情况 下 ,文件 系统 中 的 内 容 不 允许 修改 也 不 允许 删 
除 , 直 到 安全 模式 结束 。 运 行 期 通过 命令 也 可 以 进入 安全 模式 。 在 实践 过 程 中 ,系统 启动 的 
时 候 去 修改 和 删除 文件 也 会 有 安全 模式 不 允许 修改 的 出 错 提示 ,只 需要 等 待 一 会 儿 即 可 。 


4.4 MapReduce 计算 模型 


传统 的 分 布 式 计 算 模 型 主要 用 于 解决 大 规模 的 计算 密集 型 任务 ,通过 将 数据 推 向 分 布 
式 计算 节点 ,并 行 地 进行 处 理 。 每 个 计算 节点 会 缓存 数据 ,进而 通过 同步 协议 做 及 时 的 更 
新 ,以 保证 系统 数据 的 一 致 性 。 云 计算 中 各 节点 之 间 由 网 络 相连 ,如 果 在 处 理 海量 数据 时 仍 
旧 像 在 传统 方式 中 计算 节点 之 间 传 输 数据 ,开销 高 昂 , 严 重 影响 性 能 。 为 此 ,Google 公司 基 
于 GFS 的 分 布 式 文件 系统 进行 部 署 ,将 计算 推 向 数据 存储 节点 ,尽量 减少 海量 数据 传输 ,最 
先 提出 MapReduce 计算 模型 。 

2004 年 Google 发 表 了 论文 ,向 全 世界 介绍 了 MapReduce, 受 到 很 多 因特网 公司 高 度 关 
注 。2006 年 MapReduce 纳入 开放 源 代码 Hadoop 项 目 中 ,目前 得 到 广泛 认可 。 


4.4.1 MapReduce 概述 


MapReduce 从 名 字 上 来 看 就 大 致 可 以 看 出 个 缘由 ,两 个 动词 Map 和 Reduce,Map( 展 
开 ) 是 将 一 个 任务 分 解 成 为 多 个 任务 ,Reduce 是 将 分 解 后 多 任务 处 理 的 结果 汇总 起 来 ,得 出 
最 后 的 分 析 结 果 。 在 分 布 式 系 统 中 ,机 器 集群 就 可 以 看 作 硬 件 资源 池 , 将 并 行 的 任务 拆 分 ， 
然后 交 由 每 一 个 空闲 机 器 资源 去 处 理 , 能 够 极 大 地 提高 计算 效率 ,同时 这 种 资源 无 关 性 ,对 
于 计算 集群 的 扩展 无 疑 提供 了 最 好 的 设计 保证 。 任 务 分 解 处 理 以 后 ,就 需要 将 处 理 以 后 的 
结果 再 汇总 起 来 ,这 就 是 Reduce 要 做 的 工作 。 

MapReduce 模型 提供 了 一 种 简单 的 编程 模型 ,每 天 数 以 千 万 亿 字 节 的 海量 数据 ,HDFS 
作为 其 计算 所 需 数据 的 分 布 式 文件 系统 。 用 户 通过 设 定 Map 功能 将 一 组 键 值 对 转换 为 一 
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组 中 间 键 值 对 。 然 后 ,Reduce 功能 将 具有 相同 中 间 Key 值 的 中 间 Value 值 进行 整合 ,从 而 
得 到 计算 结果 。 具 体 执 行 流程 如 图 4-4 所 示 。 
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图 4-4 MapReduce 执行 流程 


(1) 在 用 户 程序 里 的 MapReduce 库 首 先 分 割 输入 文件 成 M 个 片 ,每 个 片 的 大 小 一 般 
从 16 到 64MB( 用 户 可 以 通过 可 选 的 参数 来 控制 ) ,然后 在 机 群 中 开始 大 量 地 复制 程序 。 

(2) 这 些 程序 复制 中 的 一 个 是 Master, 其 他 的 都 是 由 Master 分 配 任务 的 Worker。 有 
M 个 Map 任务 和 RR 个 Reduce 任务 将 被 分 配 。Master 分 配 一 个 Map 任务 或 Reduce 任务 
给 一 个 空闲 的 Worker. 

(3) 一 个 被 分 配 了 Map 任务 的 Worker 读 取 相 关 输 入 split 的 内 容 。 它 从 输入 数据 中 
分 析出 键 值 对 ,然后 把 键 值 对 传递 给 用 户 自 定义 的 map 函数 。 由 map 函数 产生 的 中 间 键 值 
对 被 缓存 在 内 存 中 。 

(4) 缓存 在 内 存 中 的 键 值 对 被 周期 性 的 写 入 到 本 地 磁盘 上 ,通过 分 割 函数 把 它们 写 入 
RR 个 区 域 。 在 本 地 磁盘 上 的 缓存 对 的 位 置 被 传送 给 Master, Master 负责 把 这 些 位 置 传送 给 
Reduce Worker, 

(5) 当 一 个 Reduce Worker 得 到 Master 的 位 置 通知 的 时 候 , 它 使 用 远程 过 程 调用 来 从 
Map Worker 的 磁盘 上 读 取 缓存 的 数据 。 当 Reduce Worker 读 取 了 所 有 的 中 间 数 据 后 , 它 
通过 排序 使 具有 相同 Key 的 内 容 聚 合 在 一 起 。 因 为 许多 不 同 的 Key 映射 到 相同 的 Reduce 
任务 ,所 以 排序 是 必需 的 。 如 果 中 间 数 据 比 内 存 还 大 ,那么 还 需要 一 个 外 部 排序 。 

(6) Reduce Worker 迭代 排 过 序 的 中 间 数 据 , 对 于 遇 到 的 每 一 个 唯一 的 中 间 Key, 它 把 
Key 和 相关 的 中 间 Value 集 传递 给 用 户 自 定义 的 Reduce MAM. Reduce 函数 的 输出 被 添加 
到 这 个 Reduce 分 割 的 最 终 的 输出 文件 中 。 








4.4.2 MapReduce 应 用 实例 


MapReduce 本 身 就 是 用 于 并 行 处 理 大 数据 集 的 软件 框架 应 用 程序 ,至 少 包 含 三 个 部 
分 : 一 个 map 函数、 一 个 reduce 函数 和 一 个 main 函数 。main 函数 将 作业 控制 和 文件 输入 
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输出 结合 起 来 。MapReduce 的 运行 包含 多 个 实例 (许多 Map 和 Reduce) 的 操作 组 成 ,结构 
示意 如 图 4-5 所 示 。map 函数 接收 一 组 数据 并 将 其 转换 为 一 个 键 值 对 列表 ,输入 域 中 的 每 


个 元 素 对 应 一 个 键 值 对 。reduce 函数 接收 map 函数 生成 的 列表 ,然后 根据 它们 的 键 (为 每 
个 键 生 成 一 个 键 值 对 ) 缩 小 键 值 对 列表 。 下 面 简 单 描述 两 个 应 用 实例 。 
输入 Map 任务 Reduce 任务 输出 













Reduce0 — Part 0 i 





Split Ñ ~{ Map0 
Split 2} ~( MapO 


图 4-5 MapReduce 结构 示意 图 
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Reduce() } 

















示例 1: 
假设 输入 域 是 one small step for man. one giant leap for mankind。 在 这 个 域 上 运行 
Map 函数 将 得 出 以 下 的 键 / 值 对 列表 : 


(one, 1) (small, 1) (step, 1) (for, 1) (man, 1) 
(one, 1) (giant, 1) (leap, 1) (for, 1) (mankind, 1) 


如 果 对 这 个 键 / 值 对 列表 应 用 Reduce 函数 ,将 得 到 以 下 一 组 键 / 值 对 : 


(one, 2) (small, 1) (step, 1) (for, 2) (man, 1) 

(giant, 1) (leap, 1) (mankind, 1) 

结果 是 对 输入 域 中 的 单词 进行 计数 ,这 无 疑 对 处 理 索引 十 分 有 用 。 但 是 ,现在 假设 有 两 
个 输入 域 ,第 一 个 是 one small step for man, 第 二 个 是 one giant leap for mankind。 可 以 在 
每 个 域 上 执行 Map 函数 和 Reduce 函数 ,然后 将 这 两 个 键 值 对 列表 应 用 到 另 一 个 Reduce R 
数 ,这 时 得 到 与 前 面 一 样 的 结果 。 换 句 话 说 ,可 以 在 输入 域 并 行使 用 相同 的 操作 ,得 到 的 结 
果 是 一 样 的 ,但 速度 更 快 。 这 便 是 MapReduce 的 威力 , 它 的 并 行 功能 可 在 任意 数量 的 系统 
上 使 用 。 

示例 2: 

Hadoop 提供 的 范例 Wordcount( 计 算 网 页 中 各 个 单词 的 数量 ): 

A) Input; LEAX è < 行 号 ,文本 内 容 >。 

(2) Map: < 行 号 ,文本 内 容 > è List << 单 词 ,数量 1 >>。 

(3) Reduce: < 单词 ， List < 数量 1 >> è < 单词 ,数量 合计 >。 

(4) Output; List << 单 词 ,数量 >> è 文本 文件 。 


4.4.3 MapReduce 实现 和 架构 


通常 MapReduce 框架 系统 运行 在 一 组 相同 的 节点 上 ,计算 节点 和 存储 节点 通常 在 一 
起 ,这 种 配置 允许 框架 在 已 经 存 好 数据 的 节点 上 高 效 地 调度 任务 。MapReduce 采用 主 / 从 
结构 ,由 一 个 负责 主 控 的 JobTracker 服务 器 (Master) 及 若干 个 执行 任务 的 TaskTracker 
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(Slave) 组 成 ,如 图 4-6 所 示 。JobTracker 与 HDFS 的 NameNode 处 于 同一 节点 ,而 
TaskTracker 则 与 DataNode 处 于 同一 节点 ,一 台 物 理 机 器 上 只 运行 一 个 TaskTracker。 在 
MapReduce 框架 里 ,客户 的 一 个 作业 通常 会 把 输入 数据 集 分 成 若干 独立 的 数据 块 ,由 Map 
任务 并 行 地 处 理 。 框 架 会 对 Map 的 输出 结果 进行 排序 和 汇总 ,然后 输入 给 Reduce 任务 。 
作业 的 输入 输出 结果 存储 在 HDFS 文件 系统 中 。JobTracker 负责 调度 所 有 的 任务 ,并 监控 
它们 的 执行 ,重新 执行 已 经 失败 的 任务 。 
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图 4-6 Hadoop 结构 示意 图 


4.5 分 布 式 协同 控制 


分 布 式 系统 中 的 每 个 节点 既 独 立 运行 ,又 与 所 有 其 他 节点 并 行 工作 ,因而 要 进行 协同 控 
制 。 本 部 分 先 介绍 一 般 的 分 布 式 系统 并 发 控制 方法 ,然后 对 Google 分 布 式 锁 机 制 进行 
分 析 。 


4.5.1 常见 分 布 式 并 发 控制 方法 


分 布 式 并 发 控制 作为 分 布 式 事务 管理 的 基本 任务 之 一 ,其 目的 是 保证 分 布 式 数据 库 系 
统 中 多 个 事务 高 效 而 正确 地 并 发 执行 。 并 发 控制 就 是 负责 正确 协调 并 发 事务 的 执行 ,保证 
这 种 并 发 存 取 操作 不 会 破坏 系统 完整 性 和 一 致 性 ,以 确保 并 发 执行 的 多 个 事务 能 够 正确 运 
行 并 获得 正确 结果 。 下 面 介绍 几 种 常见 的 分 布 式 并 发 控制 方法 。 

1. 基于 锁 机 制 的 并 发 控制 方法 

基于 锁 (Locking) 机 制 的 并 发 控制 方法 的 基本 思想 是 : 事务 对 任何 数据 的 操作 均 须 先 
申请 该 数据 项 的 锁 , 只 有 申请 到 锁 , 即 加 锁 成 功 后 才 可 对 数据 进行 操作 。 操 作 完 成 以 后 , 释 
放 所 申请 的 锁 。 如 果 需 申请 的 锁 已 被 其 他 事务 锁定 则 要 等 待 ,直到 那个 事务 释放 该 锁 为 止 。 
通过 锁 的 共享 及 排斥 特性 来 实现 事务 的 可 串 行 化 调度 。 两 阶段 锁 协 议 是 最 著名 的 锁 并 发 控 
制 算法 之 一 。 

对 分 布 式 计算 而 言 ,考虑 到 数据 的 宛 余 (同一 数据 在 系统 中 有 多 个 副 存 在 ) ,需要 引入 专 
门 的 多 副本 锁 并 发 控制 算法 。 
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2. 基于 时 间 戳 的 并 发 控制 方法 

与 锁 机 制 试图 通过 互 斥 来 支持 串 行 性 不 同 ,基于 时 间 戳 的 并 发 控制 方法 通过 选择 一 个 
事先 的 串 行 次 序 来 执行 事务 。 为 了 建立 次 序 , 需 要 在 每 个 事务 初始 化 时 由 事务 管理 器 为 事 
务 分 配 一 个 唯一 的 时 标 , 用 以 识别 事务 并 准许 排序 。 基 于 时 间 戳 的 思想 是 : 赋予 每 个 事务 
唯一 的 时 标 ,事务 的 执行 等 效 于 按时 标 次 序 串 行 执行 ,如 果 发 生 冲 突 , 则 通过 撤销 并 重新 启 
动 一 个 事务 来 解决 。 

时 间 戳 法 按时 标 递增 次 序 来 决定 串 行 序列 ,无 须 加 锁 , 也 没有 死 锁 ,避免 了 加 锁 和 死 锁 
检测 造成 的 通信 开销 ,但 是 它 要 求 时 标 在 全 系统 中 是 唯一 的 。 对 于 较 少 的 系统 ,时 间 戳 法 较 
为 方便 ; 而 对 于 冲突 较 多 的 系统 , 则 要 以 增加 事务 的 重新 启动 为 代价 。 目 前 时 间 戳 法 仅 限 
于 理论 研究 ,实际 运用 较 少 。 

3. 乐观 并 发 控制 方法 

乐观 并 发 控制 (Optimistic Concurrency Control) 方 法 以 事务 间 极 少 发 生 冲 突 为 前 提 。 
与 加 锁 法 和 时 间 戳 法 遇 到 冲突 操作 即 停止 或 拒绝 执行 不 同 , 乐 观 并 发 控制 方法 并 不 考虑 冲 
突 , 而 是 让 事务 执行 完毕 。 乐 观 并 发 控制 方法 将 写 操作 的 结果 和 暂 存 , 在 事务 结束 后 通过 一 项 
专门 的 检测 来 检验 事务 的 执行 是 否 可 串 行 化 ,如 果 可 以 , 才 把 写 操作 的 结果 永久 化 ,否则 将 
重新 启动 该 事务 。 

乐观 并 发 控制 方法 具有 不 阻塞 、 无 死 锁 等 优点 ,但 它 造 成 的 重启 代价 是 巨大 的 ,因为 事 
务 行将 结束 。 乐 观 法 是 并 发 控制 领域 的 一 种 新 技术 ,并 行 度 高 ,但 存储 开销 也 大 。 

4. 基于 版 本 的 并 发 控制 方法 

基于 版 本 的 并 发 控制 方法 把 版 本 管理 的 概念 引入 并 发 控制 ,使 分 布 式 应 用 能 够 并 行进 
行 , 适 用 于 分 布 式 数据 库 。 多 用 户 版 本 允许 用 户 把 初始 数据 读 取 到 自己 的 工作 区 ,用 户 在 工 
作 区 内 对 数据 进行 操作 ,并 用 版 本 来 记录 每 次 操作 的 结果 。 任 务 结束 时 ,利用 EDBMS( 工 
程 数据 库 管理 系统 ) 的 版 本 合并 功能 对 版 本 进行 管理 ,如 指定 、 合 并 或 者 删除 版 本 。 多 用 户 
版 本 在 一 定 程度 上 可 以 避免 死 锁 的 发 生 , 也 避免 了 为 预防 和 解除 死 锁 而 增加 的 代价 ,但 它 增 
加 了 任务 需要 的 工作 空间 。 

5. 基于 事务 类 的 并 发 控制 方法 

基于 事务 类 的 并 发 控制 方法 把 数据 库 的 不 同 部 分 划 为 不 同 的 冲突 类 ,用 存储 过 程 来 访 
问 数 据 库 , 一 个 存储 过 程 对 应 于 一 个 事务 。 一 个 冲突 类 由 若干 对 象 决定 ,属于 该 冲突 类 的 事 
务 只 能 存 取 这 些 对 象 。 一 个 事务 可 以 属于 多 个 冲突 类 ,每 个 冲突 类 设 一 个 主 节点 。 利 用 一 
个 读 / 写 所 有 可 用 站 点 的 副本 控制 法 , 读 事务 可 在 任何 节点 执行 ,而 写 事 务 则 被 广播 到 组 内 
的 所 有 节点 , 且 只 在 冲突 类 的 主 节点 执行 。 按 照 这 种 原则 ,属于 同一 冲突 类 的 事务 发 生 冲 突 
的 可 能 性 较 大 ,属于 不 同 冲突 类 的 事务 不 会 发 生 冲 突 。 每 一 个 冲突 类 中 存在 一 个 先进 先 出 
的 类 队列 , 当 事 务 处 在 相同 的 冲突 队列 中 时 ,它们 将 按照 一 定 的 次 序 执行 ,以 保证 冲突 事务 
的 串 行 化 。 这 种 方法 有 效 地 避免 了 死 锁 的 发 生 。 























4.5.2 Google Chubby 并 发 锁 
对 于 由 大 规 服务 器 群 构 成 的 云 计算 数据 中 心 而 言 .分 布 式 同步 机 制 是 系统 正确 性 和 可 
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靠 性 的 基本 保证 ,是 开展 一 切 上 层 应 用 的 基础 。Google Chubby 和 Hadoop ZooKeeper 是 
云 基 础 架构 分 布 式 同 步 机 制 的 典型 代表 ,可 用 于 协调 系统 中 的 各 个 部 件 ,协同 运作 来 同步 访 
问 信息 资源 ,保证 数据 一 致 性 。 下 面 进行 简要 介绍 。 

Chubby 系统 提供 粗 粒 度 的 锁 服 务 , 并 且 基 于 松 耦 合 分 布 式 系统 设计 一 致 性 问题 。 
Chubby 系统 本 质 上 是 一 个 分 布 式 的 文件 系统 ,存储 大 量 的 小 文件 。 每 一 个 文件 就 代表 了 
一 个 锁 , 并 且 保 存 一 些 应 用 层面 的 小 规模 数据 。 用 户 通过 打开 、 关 闭 和 读 取 文件 来 获取 共享 
锁 或 者 独占 锁 ,并 且 通 过 通信 机 制 向 用 户 发 送 更 新 信息 。 

Google Chubby 系统 基本 上 分 为 两 部 分 : 服务 器 端 , 称 为 Chubby Cell; 客户 端 , 每 个 
Chubby 的 客户 端 都 有 一 个 Chubby Library。 这 两 部 分 通过 RPC 进行 通信 ,如 图 4-7 所 示 。 
客户 端 通过 Chubby Library 的 接口 调用 ,在 Chubby Cell 上 创建 文件 来 获得 相应 的 锁 的 功 
能 。 由 于 整个 Chubby 系统 比较 复杂 , 且 细 节 很 多 ,可 将 整个 系统 分 为 三 个 部 分 : Chubby 
Cell 的 一 致 性 部 分 ,分 布 式 文件 系统 部 分 、 客 户 端 与 Chubby Cell 的 通信 和 连接 部 分 。 

1. Chubby Cell 的 一 致 性 

一 般 来 说 ,一 个 Chubby Cell 由 5 台 服 务 器 组 成 ,可 以 支持 整个 数据 中 心 的 上 万 台 机 器 
的 锁 服务 。Cell 中 的 每 台 服 务 器 称 为 副本 。 

当 Chubby 工作 的 时 候 ,首先 它 需 要 从 这 些 副本 中 选举 出 一 个 Master。 注 意 ,这 其 实 也 
是 一 个 分 布 一 致 性 的 问题 ,也 就 是 说 Chubby 也 存在 着 分 布 式 的 一 致 性 问题 。 每 个 Master 
都 具有 一 定 的 期 限 ,在 这 个 期 限 中 ,副本 们 不 会 再 选举 一 个 其 他 的 Master, 

出 于 安全 性 和 容错 的 考虑 ,所 有 的 副本 (包括 Master) 都 维护 同一 个 数据 的 备份 。 但 
是 ,只 有 Master 能 够 接受 客户 端 提 交 的 操作 对 数据 进行 读 和 写 ,而 其 他 的 replicas 只 是 和 
Master 进行 通信 来 更 新 它们 各 自 的 数据 。 所 以 ,一 旦 一 个 Master 被 选举 出 来 后 ,所 有 的 客 
户 端 都 只 和 Master 进行 通信 ,如 果 是 读 操作 ,Master 一 台 机 就 够 了 ; 如 果 是 写 操作 ,Master 
会 通知 其 他 的 Replicas 进行 更 新 。 这 样 的 话 ,一 旦 Master 意外 停机 ,那么 其 他 的 副本 也 能 
够 很 快 的 选举 出 另外 一 个 Master. 

2. Chubby 的 文件 系统 

前 文 说 过 ,Chubby 的 底层 实现 其 实 就 是 一 个 分 布 式 的 文件 系统 。 这 个 文件 系统 的 接 
口 是 类 似 于 UNIX 系统 的 。 例 如 ,对 于 文件 名 /ls/foo /wombat/pouch, ls 表示 的 是 lock 
service, foo 表示 的 是 某 个 Chubby Cell 的 名 字 ,wombat/pouch 则 是 这 个 Cell 上 的 某 个 文 
件 目录 或 者 文件 名 。 如 果 一 个 客户 端 使 用 Chubby Library 来 创建 这 样 一 个 文件 名 ,那么 这 
样 一 个 文件 就 会 在 Chubby Cell 上 被 创建 。 

Chubby 的 文件 系统 由 于 它 的 特殊 用 途 做 了 很 多 的 简化 ,例如 它 不 支持 文件 的 转移 ,不 
记录 文件 最 后 访问 时 间 等 。 整 个 文件 系统 只 包含 有 文件 和 目录 ,统一 称 为 Node。 文 件 系统 
采用 Berkeley DB 来 保存 Node 的 信息 ,主要 是 一 种 Map 的 关系 。Key 就 是 Node 的 名 字 ， 
Value 就 是 Node 的 内 容 。 

Chubby Cell 和 客户 端 之 间 用 了 Event 形式 的 通知 机 制 。 客 户 端 在 创建 了 文件 之 后 会 
得 到 一 个 Handle, 并 且 还 可 以 订阅 一 系列 的 Event, 如 文件 内 容 修 改 的 Event。 这 样 的 话 ， 
一 旦 客户 端 相关 的 文件 内 容 被 修改 了 ,那么 Cell 会 通过 机 制 发 送 一 个 Event 来 告诉 客户 端 
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该 文件 被 修改 了 。 

3. 客户 端 与 Chubby Cell 的 交互 部 分 

这 里 大 致 包含 两 部 分 的 内 容 : Cache 的 同步 机 制 和 KeepAlive 握手 协议 。 为 了 降低 客 
户 端 和 Cell 之 间 通 信 的 压力 和 频率 ,客户 端 在 本 地 会 保存 一 个 和 自己 相关 的 Chubby 文件 
的 Cache。 例 如 ,如 果 客户 端 通过 Chubby Library 在 Cell 上 创建 了 一 个 文件 ,那么 在 客户 
端 本 地 也 会 有 一 个 相同 的 文件 在 cache 中 创建 ,这 个 Cache 中 文件 的 内 容 和 Cell 上 文件 的 
内 容 是 一 样 的。 这 样 的 话 ,客户 端 如 果 想 访问 这 个 文件 ,就 可 以 直接 访问 本 地 的 Cache 而 不 
通过 网 络 去 访问 Cell。 

Cache 有 两 个 状态 : 有 效 和 无 效 。 当 有 一 个 客户 端 要 改变 某 个 文件 时 ,整个 修改 会 被 
主机 控制 ,然后 主机 会 发 送 无 效 标 志 给 所 有 缓存 这 个 数据 的 客户 端 ( 它 维护 了 这 么 一 个 表 )， 
当 其 他 客户 端 收 到 这 个 无 效 标 志 后 ,就 会 将 cache 中 的 状态 置 为 无 效 , 然 后 返回 一 个 应 答 。 
当主 机 确定 收 到 了 所 有 的 应 答 之 后 才 完 成 整个 变更 。 
需要 注意 的 是 ,主机 并 不 发 送 更 新 数据 给 客户 端 ， 
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EPI ome IO! 而 是 发 送 无 效 标志 给 客户 端 。 这 是 因为 如 果 发 送 更 新 
= | py 数据 给 客户 端 ,那么 每 一 次 数据 的 修改 都 需要 发 送 一 
em] TO 大 堆 的 更 新 数据 ,而 发 送 无 效 标示 的 话 ,对 一 个 数据 的 
wa i i 很 多 次 修改 只 需要 发 送 一 个 无 效 标示 ,这 样 大 幅 降低 
客户 端 进程 iO! 了 通信 量 。 

[人 关于 KeepAlive 协议 , 则 是 为 了 保证 客户 端 和 主 


图 4-7 Google Chubby 系统 架构 。 机 随时 都 保持 着 联系 。 客 户 端 和 主机 每 隔 一 段 时 间 就 

会 联系 一 次 ,如 果 主 机 意外 停机 ,客户 端 可 以 很 快 知道 

这 个 消息 ,然后 迅速 转移 到 新 的 主机 上 。 并 且 这 种 转移 对 于 客户 端的 应 用 是 透明 的 ,也 就 是 
说 应 用 并 不 会 知道 主机 发 生 了 错误 。 


4.6 Spark 计算 框架 


4.6.1 Spark 简介 


Spark 是 加 州 大 学 伯克利 分 校 AMP 实验 室 (Algorithms、Machines 和 People Lab) Jf 
发 通用 内 存 并 行 计算 框架 。Spark 在 2013 年 6 月 进入 Apache 成 为 孵化 项 目 ,8 个 月 后 成 为 
Apache 顶级 项 目 ,速度 之 快 足见 过 人 之 处 。Spark 以 其 先进 的 设计 理念 ,迅速 成 为 社区 的 
热门 项 目 , 围 绕 着 Spark 推出 了 Spark SQL Spark Streaming, MLLib 和 GraphX 等 组 件 ， 
也 就 是 BDAS( 伯 克利 数据 分 析 栈 ) ,这 些 组 件 逐 渐 形 成 大 数据 处 理 一 站 式 解 决 平台 。 从 各 
方面 报道 来 看 ,Spark 希望 替代 Hadoop 在 大 数据 中 的 地 位 ,成 为 大 数据 处 理 的 主流 标准 。 
Spark 使 用 Scala 语言 进行 实现 , 它 是 一 种 面向 对 象 .函数 式 编程 语言 ,能 够 像 操 作 本 地 集合 
对 象 一 样 轻 松 地 操作 分 布 式 数据 集 。 在 Spark 官网 上 介绍 , 它 具 有 运行 速度 快 、 易 用 性 好 、 
通用 性 强 和 随处 运行 等 特点 。 
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1. 运行 速度 快 
Spark 拥有 DAG 执行 引擎 ,支持 在 内 存 中 对 数据 进行 迭代 计算 。 宣 方 提供 的 数据 表 
明 , 如 果 数 据 由 磁盘 读 取 ,速度 是 Hadoop MapReduce 的 10 
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Spark 不 仅 支持 Scala 编写 应 用 程序 ,而 且 支 持 Java 和 
Python 等 语言 进行 编写 ,特别 是 Scala 是 一 种 高 效 、 可 拓展 的 ES a 
语言 ,能 够 用 简洁 的 代码 处 理 较为 复杂 的 处 理工 作 。 i 

3. 通用 性 强 


Spark 生态 圈 即 BDAS( 伯 克利 数据 分 析 栈 ), 包含 了 Spark Core, Spark SQL Spark 
Streaming, MLLib 和 GraphX 等 组 件 ,这 些 组 件 分 别处 理 Spark Core 提供 内 存 计 算 框架 、 
Spark Streaming 的 实时 处 理应 用 、Spark SQL 的 即席 查询 .MLLib 或 MLBase 的 机 器 学 习 
和 GraphX 的 图 处 理 , 它 们 都 是 由 AMP 实验 室 提供 ,能 够 无 颖 地 集成 并 提供 一 站 式 解 决 平 
台 , 如 图 4-9 所 示 。 

4. 随处 运行 

Spark 具有 很 强 的 适应 性 ,能 够 读 取 存 放 在 HDFS, Cassandra , HBase, S3 和 Techyon 
的 数据 ,能 够 以 Mesos、YARN 和 自身 携带 的 Standalone 作为 资源 管理 器 调度 工作 来 完成 
Spark 应 用 程序 的 计算 ,如 图 4-10 所 示 。 
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图 4-9 Spark 技术 栈 图 4-10 Spark 运行 环境 


4.6.2 Spark 生态 系统 


Spark 生态 圈 也 称 为 BDAS( 伯 克利 数据 分 析 栈 ) ,是 伯克利 APMLab 实验 室 打 造 的 , 力 
图 在 算法 (Algorithms)、 机 器 (Machines)、 人 (People) 之 间 通 过 大 规模 集成 来 展现 大 数据 应 
用 的 一 个 平台 。 伯 克利 AMPLab 运用 大 数据 、 云 计算 、 通 信 等 各 种 资源 及 各 种 灵活 的 技术 
方案 ,对 海量 不 透明 的 数据 进行 甄别 并 转化 为 有 用 的 信息 ,以 供 人 们 更 好 地 理解 世界 。 该 生 
态 圈 已 经 涉及 机 器 学 习 、 数 据 挖掘 、 数 据 库 、 信 息 检 索 、 自 然 语言 处 理 和 语音 识别 等 多 个 领 
域 。Spark 生态 圈 以 Spark Core 为 核心 ,从 HDFS, Amazon S3 和 HBase 等 持久 层 读 取 数 
据 , 以 Mesos、YARN 和 自身 携带 的 Standalone 为 资源 管理 器 调度 工作 完成 Spark 应 用 程 
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序 的 计算 。 这 些 应 用 程序 可 以 来 自 于 不 同 的 组 件 , 如 Spark Shell/Spark Submit 的 批 处 理 、 
Spark Streaming 的 实时 处 理应 用 、Spark SQL 的 即席 查询 、BlinkDB 的 权衡 查询 .MLLib/ 
MLbase 的 机 器 学 习 、GraphX 的 图 处 理 和 SparkR 的 数学 计算 等 。 

1. Spark Core 

前 面 介绍 了 Spark Core 的 基本 情况 ,下 面 总 结 一 下 Spark 内 核 架 构 。 

(1) 提供 了 有 向 无 环 图 (DAG) 的 分 布 式 并 行 计算 框架 ,并 提供 cache 机 制 来 支持 多 次 
和 迭代 计算 或 者 数据 共享 ,大 大 减少 迭代 计算 之 间 读 取 数 据 的 开销 ,这 对 于 需要 进行 多 次 迭代 
的 数据 挖掘 和 分 析 性 能 有 很 大 提升 。 

(2) 在 Spark 中 引入 了 RDD(Resilient Distributed Dataset) 的 抽象 , 它 是 分 布 在 一 组 节 
点 中 的 只 读 对 象 集合 ,这 些 集合 是 弹性 的 ,如 果 数 据 集 一 部 分 丢失 , 则 可 以 根据 “血统 ”对 它 
们 进行 重建 ,保证 了 数据 的 高 容错 性 。 

(3) 移动 计算 而 非 移动 数据 ,RDD Partition 可 以 就 近 读 取 分 布 式 文件 系统 中 的 数据 块 
到 各 个 节点 内 存 中 进行 计算 。 

(4) 使 用 多 线程 池 模 型 来 减少 task 启动 开 稍 。 

2. Spark Streaming 

Spark Streaming 是 一 个 对 实时 数据 流 进行 高 通 量 、 容 错 处 理 的 流 式 处 理 系统 ,可 以 对 
多 种 数据 源 ( 如 Kdfka、Flume、Twitter、Zero 和 TCP 套 接 字 ) 进 行 类 似 Map, Reduce 和 Join 
等 复杂 操作 ,并 将 结果 保存 到 外 部 文件 系统 .数据库 或 应 用 到 实时 仪表 盘 。 

Spark Streaming 构架 ; 

(1) 计算 流程 。Spark Streaming 是 将 流 式 计 算 分 解 成 一 系列 短小 的 批 处 理 作 业 。 这 
里 的 批 处 理 引 擎 是 Spark Core. 也 就 是 把 Spark Streaming 的 输入 数据 按照 batch size( 如 
1s) 分 成 一 段 一 段 的 数据 (Discretized Stream), 每 一 段 数据 都 转换 成 Spark 中 的 RDD 
(Resilient Distributed Dataset). 然后 将 Spark Streaming 中 对 DStream 的 Transformation 
操作 变 为 针对 Spark 中 对 RDD 的 Transformation 操作 ,将 RDD 经 过 操作 变 成 中 间 结 果 保 
存在 内 存 中 。 整 个 流 式 计算 根据 业务 的 需求 可 以 对 中 间 的 结果 进行 琶 加 或 者 存储 到 外 部 设 
备 。 图 4-11 展示 了 Spark Streaming 的 架构 。 
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(2) 容错 性 。 对 于 流 式 计算 来 说 ,容错 性 至 关 重 要 。 首 先 要 明确 一 下 Spark 中 RDD 的 
容错 机 制 。 每 一 个 RDD 都 是 一 个 不 可 变 的 分 布 式 可 重 算 的 数据 集 ,其 记录 着 确定 性 的 操 
作 继 承 关 系 (Lineage), 所 以 只 要 输入 数据 是 可 容错 的 ,那么 任意 一 个 RDD 的 分 区 
(Partition) 出 错 或 不 可 用 ,都 是 可 以 利用 原始 输入 数据 通过 转换 操作 而 重新 算出 的 。 

对 于 Spark Streaming 来 说 ,其 RDD 的 传承 关系 如 图 4-12 所 示 , 图 中 的 每 一 个 椭圆 形 
表示 一 个 RDD, 椭 圆 形 中 的 每 个 圆 形 代表 一 个 RDD 中 的 一 个 Partition ,图 中 每 一 列 的 多 个 
RDD 表示 一 个 DStream( 图 4-12 中 有 三 个 DStream) ,而 每 一 行 最 后 一 个 RDD 则 表示 每 一 
个 Batch Size 所 产生 的 中 间 结 果 RDD。 可 以 看 到 图 中 的 每 一 个 RDD 都 是 通过 lineage 相 
连接 的 ,由 于 Spark Streaming 输入 数据 可 以 来 自 于 磁盘 ,例如 HDFS( 多 份 备份 ) 或 是 来 自 
于 网 络 的 数据 流 (Spark Streaming 会 将 网 络 输入 数据 的 每 一 个 数据 流 复制 两 份 到 其 他 的 机 
器 ) 都 能 保证 容错 性 ,所 以 RDD 中 任意 的 Partition 出 错 ,都 可 以 并 行 地 在 其 他 机 器 上 将 缺 
失 的 Partition 计算 出 来 ,如 图 4-12 所 示 。 这 个 容错 恢复 方式 比 连续 计算 模型 (如 Storm) 的 
效率 更 高 。 
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图 4-12 Spark Streaming 中 RDD 的 继承 关系 图 


(3) 实时 性 。 对 于 实时 性 的 讨论 ,会 牵涉 到 流 式 处 理 框 架 的 应 用 场景 。Spark 
Streaming 将 流 式 计算 分 解 成 多 个 Spark Job ,对 于 每 一 段 数据 的 处 理 都 会 经 过 Spark DAG 
图 分 解 及 Spark 的 任务 集 的 调度 过 程 。 对 于 目前 版 本 的 Spark Streaming 而 言 , 其 最 小 的 
Batch Size 的 选取 在 0.5 ~2s Z fal (Storm 目前 最 小 的 延迟 是 100ms 左右 ), 所 以 Spark 
Streaming 能 够 满足 除了 对 实时 性 要 求 非常 高 (如 高 频 实时 交易 ) 之 外 的 所 有 流 式 准 实时 计 
算 场 景 。 

(4) 扩展 性 与 吞吐 量 。Spark 目前 在 EC2 上 已 能 够 线性 扩展 到 100 个 节点 (每 个 节点 
4Core) ,可 以 数秒 的 延迟 处 理 6GB/s 的 数据 量 (60M records/s) ,其 吞吐 量 也 比 流行 的 
Storm 高 2 一 5 倍 ,在 Berkeley 利用 WordCount 和 Grep 两 个 用 例 所 做 的 测试 中 ,Spark 
Streaming 中 每 个 节点 的 吞吐 量 是 670k records/s. mj Storm 是 115k records/s. 

3. Spark SQL 

Spark SQL 允许 开发 人 员 直接 处 理 RDD, 同 时 也 可 查询 例如 在 Apache Hive 上 存在 的 
外 部 数据 。Spark SQL 的 一 个 重要 特点 是 其 能 够 统一 处 理 关 系 表 和 RDD, 使 得 开发 人 员 可 
以 轻松 地 使 用 SQL 命令 进行 外 部 查询 ,同时 进行 更 复杂 的 数据 分 析 。 除 了 Spark SQL 外 ， 
Michael 还 谈 到 Catalyst 优化 框架 , 它 允 许 Spark SQL 自动 修改 查询 方案 ,使 SQL 更 有 效 
地 执行 。 
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Spark SQL 的 特点 : 

(1) 引入 了 新 的 RDD 类 型 SchemaRDD, 可 以 像 传统 数据 库 定义 表 一 样 来 定义 
SchemaRDD,SchemaRDD 由 定义 了 列 数 据 类 型 的 行 对 象 构成 。SchemaRDD 可 以 从 RDD 
转换 过 来 ,也 可 以 从 Parquet 文件 读 入 ,还 可 以 使 用 HiveQL 从 Hive 中 获取 。 

(2) ART Catalyst 查询 优化 框架 ,在 把 SQL 解析 成 逻辑 执行 计划 之 后 ,利用 Catalyst 
包 里 的 一 些 类 和 接口 ,执行 了 一 些 简单 的 执行 计划 优化 ,最 后 变 成 RDD 的 计算 在 应 用 程序 
中 可 以 混合 使 用 不 同 来 源 的 数据 ,如 可 以 将 来 自 HiveQL 的 数据 和 来 自 SQL 的 数据 进行 
Join 操作 。 

主要 Spark SQL 在 下 面 几 点 做 了 优化 : 

(1) 内 存 列 存储 (In-Memory Columnar Storage), Spark SQL 的 表 数 据 在 内 存 中 存储 
不 是 采用 原生 态 的 JVM 对 象 存储 方式 ,而 是 采用 内 存 列 存储 。 

(2) 字 节 码 生 成 技术 (Bytecode Generation), Sparkl.1.0 在 Catalyst 模块 的 expressions 增 
加 了 codegen 模块 ,使 用 动态 字 节 码 生 成 技术 ,对 匹配 的 表达 式 采用 特定 的 代码 动态 编译 。 
另外 对 SQL 表达 式 都 进行 了 CG 优化 ,CG 优化 的 实现 主要 还 是 依靠 Scala2. 10 的 运行 时 放 
射 机 制 (Runtime Reflection) 。 

(3) Scala 代码 优化 。Spark SQL 在 使 用 Scala 编写 时 ,尽量 避免 低 效 的 、 容 易 GC 的 代 
码 。 尽 管 增加 了 编写 代码 的 难度 ,但 对 于 用 户 来 说 接口 统一 。 

4, MLBase/MLLib 

MLBase 是 Spark 生态 圈 的 一 部 分 ,专注 于 机 器 学 习 , 让 机 器 学 习 的 门槛 更 低 ,让 一 些 
可 能 并 不 了 解 机 器 学 习 的 用 户 也 能 方便 地 使 用 MLBase。MLBase 分 为 4 部 分 : MLLib、 
MLI、ML Optimizer 和 ML Runtime, 如 图 4-13 Aras. 








图 4-13 Spark 机 器 学 习 层 次 结构 


(1) ML Optimizer 会 选择 它 认 为 最 适合 的 已 经 在 内 部 实现 好 了 的 机 器 学 习 算法 和 相 
关 参 数 来 处 理 用 户 输入 的 数据 ,并 返回 模型 或 别 的 帮助 分 析 的 结果 。 

(2) MILI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 API 或 平台 。 

(3) MLLib 是 Spark 实现 常见 机 器 学 习 算法 的 实用 程序 ,包括 分 类 .回归 、 聚 类 、 协 同 过 
滤 、 降 维 及 底层 优化 ,这 些 算 法 可 以 进行 扩充 。MLLib 基于 Spark 计算 框架 ,将 Spark 的 分 
布 式 计算 应 用 到 机 器 学 习 领 域 。 

总 的 来 说 ,MLBase 的 核心 是 它 的 优化 器 ,把 声明 式 的 Task 转化 成 复杂 的 学 习 计 划 , 产 
出 最 优 的 模型 和 计算 结果 。 与 其 他 机 器 学 习 Weka 和 Mahout 不 同 的 是 ， 

(1) MLBase 是 分 布 式 的 ,Weka 是 一 个 单机 的 系统 。 

(2) MLBase 是 自动 化 的 . Weka 和 Mahout 都 需要 使 用 者 具备 机 器 学 习 技 能 ,选择 自己 
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想 要 的 算法 和 参数 来 做 处 理 。 

(3) MLBase 提供 了 不 同 抽象 程度 的 接口 ,让 算法 可 以 扩充 。 

(4) MLBase 基于 Spark 这 个 平台 。 

5. GraphX 

GraphX 是 Spark 中 用 于 图 和 图 并 行 计算 的 API, 可 以 认为 是 GraphLab(C++) 和 Pregel 
(C++) FE Spark(Scala) 上 的 重 写 及 优化 。 跟 其 他 分 布 式 图 计算 框架 相 比 ,GraphX 最 大 的 贡 
献 是 在 Spark 之 上 提供 一 站 式 数据 解决 方案 ,可 以 方便 且 高 效 地 完成 图 计算 的 一 整套 流水 
作业 。GraphX 最 先是 伯克利 AMPLAB 的 一 个 分 布 式 图 计算 框架 项 目 , 后 来 整合 到 Spark 
中 成 为 一 个 核心 组 件 。 

GraphX 的 核心 抽象 是 Resilient Distributed Property Graph ,一 种 点 和 边 都 带 属 性 的 
有 向 多 重 图 。 它 扩展 了 Spark RDD 的 抽象 ,有 Table 和 Graph 两 种 视图 ,而 只 需要 一 份 物 
理 存储 ,如 图 4-14 所 示 。 两 种 视图 都 有 自己 独 有 的 操作 符 , 从 而 获得 了 灵活 操作 和 执行 效 
率 。 如 同 Spark,GraphX 的 代码 非常 简洁 。GraphX 的 核心 代码 只 有 三 千 多 行 , 而 在 此 之 上 
实现 的 Pregel 模型 只 要 短 短 的 二 十 多 行 。GraphX 的 代码 结构 整体 如 图 4-14 所 示 , 其 中 大 
部 分 的 实现 都 是 围绕 Partition 的 优化 进行 的 。 这 在 某 种 程度 上 说 明了 点 分 割 的 存储 和 相 
应 的 计算 优化 的 确 是 图 计算 框架 的 重点 和 难点 。 
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图 4-14 Spark 图 计算 结构 


GraphX 的 底层 设计 有 以 下 几 个 关键 点 : 

(1) 对 Graph 视图 的 所 有 操作 最 终 都 会 转换 成 其 关联 的 Table 视图 的 RDD 操作 来 完 
成 。 这 样 对 一 个 图 的 计算 ,最 终 在 逻辑 上 等 价 于 一 系列 RDD 的 转换 过 程 。 因 此 ,Graph 最 
终 具备 了 RDD 的 三 个 关键 特性 : Immutable, Distributed 和 Fault-Tolerant。 其 中 最 关键 的 
是 Immutable( 不 变性 )。 人 逻辑 上 ,所 有 图 的 转换 和 操作 都 产生 了 一 个 新 图 ; 物理 上 ,GraphX 
会 有 一 定 程度 的 不 变 项 点 和 边 的 复 用 优化 ,对 用 户 透 明 。 

(2) 两 种 视图 底层 共用 的 物理 数据 由 RDDL Vertex-Partition] 和 RDD EdgePartition] 
这 两 个 RDD 组 成 。 点 和 边 实际 都 不 是 以 表 Collection[tuple] 的 形式 存储 的 .而 是 由 
VertexPartition/EdgePartition 在 内 部 存储 一 个 带 索 引 结构 的 分 片 数 据 块 ,以 加 速 不 同 视图 
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下 的 遍历 速度 。 不 变 的 索引 结构 在 RDD 转换 过 程 中 是 共用 的 ,降低 了 计算 和 存储 开销 。 

(3) 图 的 分 布 式 存储 采用 点 分 割 模式 ,而 且 使 用 partitionBy 方法 ,由 用 户 指定 不 同 的 
划分 策略 (PartitionStrategy) 。 划 分 策略 会 将 边 分 配 到 各 个 EdgePartition, 顶点 Master 分 
配 到 各 个 VertexPartition ,EdgePartition 也 会 缓存 本 地 边关 联 点 的 Ghost 副本 。 划 分 策略 
的 不 同 会 影响 到 所 需要 缓存 的 Ghost 副本 数量 ,以 及 每 个 EdgePartition 分 配 的 边 的 均衡 程 
度 , 需 要 根据 图 的 结构 特征 选取 最 佳 策 略 。 目 前 有 EdgePartition2d、EdgePartition1d、 
RandomVertexCut 和 CanonicalRandomVertexCut 这 4 种 策略 。 在 淘宝 的 大 部 分 场景 下 ， 
EdgePartition2d 效果 最 好 。 

6. SparkR 

SparkR 是 AMPLab 发 布 的 一 个 R 开发 包 , 使 得 R 摆脱 单机 运行 的 命运 ,可 以 作为 
Spark 的 job 运行 在 集群 上 , 极 大 地 扩展 了 R 的 数据 处 理 能 力 。 

SparkR 的 几 个 特性 : 

(1) 提供 了 Spark 中 弹性 分 布 式 数据 集 (RDD) 的 API, 用 户 可 以 在 集群 上 通过 R shell 
交互 性 的 运行 Spark job。 

(2) 支持 序 化 闭 包 功 能 ,可 以 将 用 户 定义 函数 中 所 引用 到 的 变量 自动 序 化 发 送 到 集群 
中 其 他 的 机 器 上 。 

(3) SparkR 还 可 以 很 容易 地 调用 R 开发 包 ,只 需要 在 集群 上 执行 操作 前 用 
includePackage 读 取 R 开发 包 就 可 以 了 。 当 然 ,集群 上 要 安装 R 开发 包 。 

SparkR 结构 如 图 4-15 所 示 。 
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4-15 SparkR 结构 


4.7 Flink 计算 框架 


4.7.1 Flink 简介 


很 多 人 可 能 都 是 在 2015 年 才 听 到 Flink 这 个 词 ,其 实 早 在 2008 年 Flink 的 前 身 己 经 是 
柏林 理工 大 学 的 一 个 研究 性 项 目 .在 2014 年 被 Apache 孵化 器 所 接受 ,然后 迅速 地 成 为 
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ASF(Apache Software Foundation) 的 顶级 项 目 之 一 。 

Flink 是 一 个 针对 流 数据 和 批 数据 的 分 布 式 处 理 引 擎 ,主要 由 Java 代码 实现 。 目 前 主 
要 还 是 依靠 开源 社区 的 贡献 而 发 展 。 对 Flink 而 言 ,其 所 要 处 理 的 主要 场景 就 是 流 数 据 , 批 
数据 只 是 流 数 据 的 一 个 极限 特例 而 已 。 换 句 话 说 ,Flink 会 把 所 有 任务 当成 流 来 处 理 ,这 也 
是 其 最 大 的 特点 。Flink 可 以 支持 本 地 的 快速 和 欠 代 ,以 及 一 些 环形 的 迭代 任务 。 并 且 Flink 
可 以 定制 化 内 存 管 理 。 在 这 点 上 ,如 果 要 对 比 Flink 和 Spark 的 话 ,Flink 并 没有 将 内 存 完 
全 交 给 应 用 层 。 这 也 是 为 什么 Spark 相对 于 Flink 更 容易 出 现 OOM 的 原因 (out of 
memory) 。 就 框架 本 身 与 应 用 场景 来 说 ,Flink 更 相似 于 Storm。 如 果 之 前 了 解 过 Storm 或 
者 Flume 的 读者 ,可 能 会 更 容易 理解 Flink 的 架构 和 很 多 概念 。 下 面 先 来 看 一 下 Flink 的 
架构 图 。 

如 图 4-16 所 示 , 可 以 了 解 到 Flink 的 几 个 最 基础 的 概念 : Client、JobManager 和 
TaskManager。Client 用 来 提交 任务 给 JobManager, JobManager 分 发 任务 给 
TaskManager 去 执行 ,然后 TaskManager 会 汇报 任务 状态 。 看 到 这 里 ,有 的 人 应 该 已 经 有 
种 回 到 Hadoop 一 代 的 错觉 。 确 实 , 从 架构 图 去 看 ,JobManager 很 像 当年 的 JobTracker， 
TaskManager 也 很 像 当 年 的 TaskTracker。 然 而 有 一 个 最 重要 的 区 别 就 是 TaskManager 
之 间 是 流 (Stream)。 而 且 ,Hadoop 一 代 中 只 有 Map 和 Reduce 之 间 的 Shuffle, 而 对 Flink 
而 言 ,可 能 是 很 多 级 ,并 且 在 TaskManager 内 部 和 TaskManager 之 间 都 会 有 数据 传递 ,而 
不 像 Hadoop 是 固定 的 Map 到 Reduce。 
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图 4-16 Flink 架构 图 


4.7.2 Flink 中 的 调度 简 述 


在 Flink 集群 中 ,计算 资源 被 定义 为 Task Slot。 每 个 TaskManager 会 拥有 一 个 或 多 个 
Slots, JobManager 会 以 Slot 为 单位 调度 Task。 但 是 这 里 的 Task IRE Hadoop 中 的 理解 
是 有 区 别 的 。 对 Flink 的 JobManager 来 说 ,其 调度 的 是 一 个 Pipeline 的 Task ,而 不 是 一 个 
点 。 举 个 例子 ,在 Hadoop 中 Map 和 Reduce 是 两 个 独立 调度 的 Task, 并 且 都 会 去 占用 计 
算 资 源 。 对 Flink 来 说 ,MapReduce 是 一 个 Pipeline 的 Task, 只 占用 一 个 计算 资源 。 类 同 
的 ,如 果 有 一 个 MRR 的 Pipeline Task, 在 Flink 中 其 也 是 一 个 被 整体 调度 的 Pipeline 
Task。 在 TaskManager 中 .根据 其 所 拥有 的 Slot 个 数 ,同时 会 拥有 多 个 Pipeline. 
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在 Flink StandAlone 的 部 署 模式 中 这 个 还 比较 容易 理解 ,因为 Flink 自身 也 需要 简单 
的 管理 计算 资源 (Slot) 。 当 Flink 部 署 在 Yarn 上 面 之 后 ,Flink 并 没有 弱化 资源 管理 。 也 
就 是 说 ,这 时 的 Flink 在 做 一 些 Yarn 该 做 的 事情 。 从 设计 角度 来 讲 , 这 是 不 太 合理 的 。 如 
果 Yarn 的 Container 无 法 完全 隔离 CPU 资源 ,这 时 对 Flink 的 TaskManager 配置 多 个 
Slot ,应 该 会 出 现 资源 不 公平 利用 的 现象 。Flink 如 果 想 在 数据 中 心 更 好 的 与 其 他 计算 框架 
共享 计算 资源 ,应 该 尽量 不 要 干预 计算 资源 的 分 配 和 定义 。 


4.7.3 Flink 的 生态 圈 


一 个 计算 框架 要 有 长 远 的 发 展 ,必须 打造 一 个 完整 的 Stack。 不 然 就 跟 纸上谈兵 一 样 ， 
没有 任何 意义 。 只 有 上 层 有 了 具体 的 应 用 ,并 能 很 好 地 发 挥 计 算 框架 本 身 的 优势 ,这 个 计算 
框架 才能 吸引 更 多 的 资源 , 才 会 更 快 的 进步 。 所 以 Flink 也 在 努力 构建 自己 的 Stack。 

Flink 首先 支持 了 Scala 和 Java 的 API,Python 也 正在 测试 中 。Flink 通过 Gelly 支持 
了 图 操作 ,还 有 机 器 学 习 的 FlinkML。Table 是 一 种 接口 化 的 SQL 支持 ,也 就 是 API 支持 ， 
而 不 是 文本 化 的 SQL 解析 和 执行 。 对 于 完整 的 Stack, 可 以 参考 图 4-17。 
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图 4-17 Flink 计算 栈 


Flink 为 了 更 广泛 地 支持 大 数据 的 生态 圈 , 其 下 也 实现 了 很 多 Connector 的 子 项 目 。 最 
熟悉 的 当然 就 是 与 Hadoop HDFS 集成 。Flink 也 宣布 支持 Tachyon,S3 及 MapRFS。 不 过 
对 于 Tachyon 及 S3 的 支持 都 是 通过 Hadoop HDFS 这 层 包 装 实现 的 ,也 就 是 说 要 使 用 
Tachyon 和 S3 就 必须 有 Hadoop ,而 且 要 更 改 Hadoop 的 配置 (core-site, xml) 。 如 果 浏 览 
Flink 的 代码 目录 ,就 会 看 到 更 多 Connector 项 目 . 例 如 Flume 和 Kafka。 


4.8 本 章 小 结 


本 章 介绍 了 构成 大 数据 云 计算 主要 的 关键 技术 一 一 分 布 式 计算 技术 ,以 及 Hadoop、 
Spark Flink 等 几 种 分 布 式 大 数据 计算 框架 。 

分 布 式 计 算 和 并 行 计算 是 相互 关联 的 两 个 不 同 概念 , 称 为 实现 云 计算 的 关键 技术 。 分 
布 式 计算 是 指 通过 网 络 将 多 个 独立 的 计算 节点 ( 即 物理 服务 器 ) 连 接 起 来 共同 完成 一 个 计算 
任务 的 计算 模式 。 并 行 计 算是 指 许多 指令 得 以 同时 进行 的 计算 模式 ,其 实 就 是 指 同 时 使 用 
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多 种 计算 资源 解决 计算 问题 的 过 程 。 

Hadoop 是 由 Apache 基金 会 开发 ,设计 用 来 在 由 通用 计算 设备 组 成 的 大 型 集群 上 执行 
分 布 式 应 用 的 基础 框架 。 用 户 可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 开发 分 布 式 程序 , 充 
分 利用 集群 的 威力 高 速 运算 和 存储 。 

Spark 是 加 州 大 学 伯克利 分 校 AMP 实验 室 (Algorithms、Machines 和 People Lab) Jf 
发 的 通用 内 存 并 行 计算 框架 ,在 2013 年 6 月 进入 Apache RAMET A FASE Spark 推出 
了 Spark SQL,Spark Streaming, MLLib 和 GraphX 等 组 件 ,也 就 是 BDAS( 伯 克利 数据 分 析 
栈 ) ,这 些 组 件 逐 渐 形成 大 数据 处 理 一 站 式 解 决 平台 。 

Flink 的 前 身 己 经 是 柏林 理工 大 学 的 一 个 研究 性 项 目 ,在 2014 年 被 Apache 孵化 器 所 
接受 ,然后 迅速 地 成 为 ASF(Apache Software Foundation) 的 顶级 项 目 之 一 。Flink 会 把 所 
有 任务 当成 流 来 处 理 ,支持 本 地 的 快速 迭代 以 及 一 些 环形 的 迭代 任务 ,还 可 以 定制 内 存 


管理 。 
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NoSQL 数 据 库 


5.1 NoSOL 数据 库 概 述 


NoSQL(Not Only SQL ,不 仅仅 是 SQL)? 是 一 项 全 新 的 数据 库 革命 性 运动 ,早期 就 有 人 
提出 ,发展 至 2009 年 趋势 越发 高 涨 。 随 着 因特网 的 兴起 ,传统 的 关系 数据 库 在 应 付 超大 规 
模 和 高 并 发 的 SNS 类 型 纯 动 态 网 站 已 经 显得 力不从心 ,暴露 了 很 多 难以 克服 的 问题 ,而 非 
关系 型 的 数据 库 则 由 于 其 本 身 的 特点 得 到 了 非常 迅速 的 发 展 。NoSQL 数据 库 的 产生 就 是 
为 了 解决 大 规模 数据 集合 多 重 数据 种 类 带 来 的 挑战 ,尤其 是 大 数据 应 用 难题 。 


5.1.1 NoSQL 数据 库 的 4 大 分 类 


1. 键 值 存储 数据 库 

这 一 类 数据 库 主要 会 使 用 到 一 个 哈 希 表 , 这 个 表 中 有 一 个 特定 的 键 和 一 个 指针 指向 特 
定 的 数据 。Key/Value 模型 对 于 IT 系统 来 说 ,其 优势 在 于 简单 、 易 部 署 。 但 是 ,如 果 DBA 
只 对 部 分 值 进行 查询 或 更 新 时 , 键 值 就 显得 效率 低下 了 ,如 Tokyo Cabinet/Tyrant、Redis、 
Voldemort, Oracle BDB, 

2. 列 存储 数据 库 

这 部 分 数据 库 通常 用 来 应 对 分 布 式 存储 的 海量 数据 。 键 仍然 存在 ,但 是 它们 的 特点 是 
指向 了 多 个 列 。 这 些 列 是 由 列 家 族 来 安排 的 ,如 Cassandra, HBase, Riak. 

3. 文档 型 数据 库 

文档 型 数据 库 的 灵感 来 自 于 Lotus Notes 办 公 软 件 , 而 且 它 同 第 一 种 键 值 存储 相 类 似 。 
该 类 型 的 数据 模型 是 版 本 化 的 文档 , 半 结 构 化 的 文档 以 特定 的 格式 存储 ,比如 JSON。 文 档 
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型 数据 库 可 以 看 作 是 键 值 数据 库 的 升级 版 ,允许 之 间 嵌 套 键 值 。 而 且 文 档 型 数据 库 比 键 值 
数据 库 的 查询 效率 更 高 ,如 CouchDB、MongoDb。 国 内 也 有 文档 型 数据 库 SequoiaDB, 已 经 
开源 。 

4. 图 形 数据 库 

图 形 (Graph) 结 构 的 数据 库 同 其 他 行列 及 刚性 结构 的 SQL 数据 库 不 同 , 它 是 使 用 灵活 
的 图 形 模型 ,并 且 能 够 扩展 到 多 个 服务 器 上 。NoSQL 数据 库 没有 标准 的 查询 语言 (SQL)， 
因此 进行 数据 库 查询 需要 制定 数据 模型 。 许 多 NoSQL 数据 库 都 有 REST 式 的 数据 接口 或 
者 查询 API, 如 Neo4J .InfoGrid Infinite Graph, NoSQL 数据 库 分 类 如 表 5-1 所 示 。 


表 5-1 NoSQL 数据 库 的 分 类 














分 类 举例 | 典型 应 用 场景 | 数据 模型 优点 缺点 
Tokyo Cabinet/ eit Key 指向 Value 数据 无 结构 化 ， 
abit Tyrant, Redis, 据 的 高 访 ia 负 的 键 值 对 ,通常 查找 速度 快 通常 只 被 当 作 字 
Voldemort, g “| 用 hash table 来 符 串 或 者 二 进 制 
Oracle BDB ”| 载 , 也 用 于 一 些 | 实现 数据 
日 志 系统 等 
查找 速度 快 ,可 
DAB Be a fi 
7 _ |Cassandra, 分 布 式 的 文件 扩展 性 强 , 更 容 
列 存储 数据 库 lice, Rik | 系统 FESR En ee UT 
在 一 起 
扩展 
Web 应 用 (与 
数据 结构 要 求 不 
ERDRE 键 值 对 应 的 键 值 | 严格 , 表 结 构 可 | 查询 性 能 不 高 ， 
文档 型 数据 库 |p e 对 , Value 为 结 | 变 , 不 需要 像 关 | 而 且 缺 乏 统一 的 
s 够 了 解 Value 的 | 构 化 数据 系 型 数据 库 一 样 | 查询 语法 
义 表 结 
内 容 ) 预先 定义 表 结 构 
很 多 时 候 需 要 对 
利用 图 结构 相关 | 整个 图 做 计算 才 
Neo4J， 社交 网 络 ,推荐 a 各 
图 形 数据 库 。 |InfoGrid， | 系统 等 。 专 注 于 | 图 结构 edie eee 
a eH FHE, N 度 关 | 息 ,而 且 这 种 结 
niinite Grap! R 系 查 找 等 构 不 太 好 做 分 布 
式 的 集群 方案 

















因此 ,总 结 NoSQL 数据 库 在 以 下 几 种 情况 下 比较 适用 : 
(1) 数据 模型 比较 简单 。 

(2) 需要 灵活 性 更 强 的 IT 系统。 

(3) 对 数据 库 性 能 要 求 较 高 。 

CA) 不 需要 高 度 的 数据 一 致 性 。 

(5) 对 于 给 定 Key, 比 较 容易 映射 复杂 值 的 环境 。 


Sil 
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5.1.2 数据 库 系 统 CAP 理论 和 BASE 理论 


1. CAP 理论 

分 布 式 系统 有 一 个 重要 的 理论 是 CAP Hie. CAP 理论 指出 : 一 个 分 布 式 系统 不 可 能 
同时 满足 一 致 性 (Consistency) ,可 用 性 (Availibility) 和 分 区 容忍 性 (Partition Tolerance) 这 
三 个 需求 ,最 多 只 能 同时 满足 其 中 的 两 个 。 下 面 分 别 介绍 这 三 个 性 质 。 

1) 一 致 性 
对 于 分 布 式 系统 ,一 个 数据 往往 会 存在 多 份 。 简 单 地 说 ,一 致 性 会 让 客户 对 数据 的 修改 
操作 ( 增 / 删 / 改 ) 要 么 在 所 有 的 数据 副本 (在 英文 文献 中 常 称 为 Replica) 全 部 成 功 ,要 么 全 部 
失败 。 即 修改 操作 对 于 一 份 数据 的 所 有 副本 而 言 是 原子 (Atomic) 的 操作 。 如 果 一 个 存储 
系统 可 以 保证 一 致 性 ,那么 客户 读 写 的 数据 完全 可 以 保证 是 最 新 的 ,不 会 发 生 两 个 不 同 的 客 
户 端 在 不 同 的 存储 节点 中 读 取 到 不 同 副 本 的 情况 。 

2) 可 用 性 

可 用 性 很 简单 ,顾名思义 ,就 是 指 在 客户 端 想 要 访问 数据 的 时 候 可 以 得 到 响应 。 但 是 注 
意 ,系统 可 用 (Available) 并 不 代表 存储 系统 所 有 节点 提供 的 数据 是 一 致 的 。 比 如 客户 端 想 
要 读 取 文章 评论 ,系统 可 以 返回 客户 端 数据 ,但 是 评论 缺少 最 新 的 一 条 。 这 种 情况 我 们 仍然 
说 系统 是 可 用 的 。 我 们 往往 会 对 不 同 的 应 用 设 定 一 个 最 长 响应 时 间 ,超过 这 个 响应 时 间 的 
服务 称 为 不 可 用 的 。 

3) 分 区 容忍 性 

如 果 存 储 系统 只 运行 在 一 个 节点 上 ,要 么 系统 整个 崩溃 ,要 么 全 部 运行 良好 。 一 旦 针对 
同一 服务 的 存储 系统 分 布 到 了 多 个 节点 后 ,整个 系统 就 存在 分 区 的 可 能 性 。 如 两 个 节点 之 
间 联 通 的 网 络 断 开 (无 论 长 时 间或 者 短暂 的 ), 就 形成 了 分 区 。 对 当前 的 因特网 公司 (例如 
Google) 来 说 ,为 了 提高 服务 质量 ,同一 份 数据 放置 在 不 同城 市 乃至 不 同 国家 是 非常 正常 的 ， 
节点 之 间 形 成 了 分 区 。 除 了 全 部 网 络 节点 全 部 故障 以 外 ,所 有 子 节点 集合 的 故障 都 不 允许 
导致 整个 系统 不 正确 响应 。 

在 设计 一 个 分 布 式 存储 系统 时 必须 三 个 特性 中 放弃 一 个 。 

如 果 选 择 Partition Tolerance 和 Consistency, 操 作 必 须 一 致 。 所 以 就 必须 100% 保证 
所 有 节点 之 间 有 很 好 的 连通 性 。 这 是 很 难 做 到 的 。 最 好 的 办 法 就 是 将 所 有 数据 放 到 同一 个 
节点 中 。 但 是 ,显然 这 种 设计 是 不 满足 Availability 的 。 

如 果 要 满足 Availability 和 Consistency ,那么 为 了 保证 可 用 ,数据 必须 要 有 Replica. 
这 样 ,系统 显然 无 法 容忍 Partition。 当 同一 个 数据 的 两 个 副本 分 配 到 了 两 个 无 法 通信 的 
Partition 上 时 ,显然 会 返回 错误 的 数据 。 

最 后 看 一 下 满足 Availability 和 Partition Tolerance 的 情况 。 满 足 可 用 ,就 说 明 数 据 必 
须要 在 不 同 节点 中 有 replica。 然 而 还 必须 保证 在 产生 Partition 的 时 候 仍然 操作 可 以 完成 ， 
那么 必然 操作 无 法 保证 一 致 性 。 

2. ACID 模型 

关系 数据 库 放 弃 了 分 区 容忍 性 (Partition Tolerance) ,具有 高 一 致 性 (Consistency) 和 高 
可 靠 性 (Availability) ,采用 ACID 模型 解决 方案 : 


> 
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。 Atomicity( 原 子 性 ) : 一 个 事务 中 所 有 操作 都 必须 全 部 完成 ,要 么 全 部 不 完成 。 

e Consistency( 一 致 性 ) : 在 事务 开始 或 结束 时 ,数据 库 应 该 在 一 致 状态 。 

e Isolation RAE): 事务 将 假定 只 有 它 自 己 在 操作 数据 库 , 彼 此 不 知晓 。 

。 Durability FATE): 一 旦 事务 完成 ,就 不 能 返回 。 

对 于 单个 节点 的 事务 ,数据 库 都 是 通过 并 发 控制 (两 阶段 封锁 ,two phase locking 或 者 
多 版 本 ) 和 恢复 机 制 (日 志 技术 ) 保 证 事务 的 ACID 特性 。 对 于 跨 多 个 节点 的 分 布 式 事务 , 通 
过 两 阶段 提交 协议 (two phase commuting) 来 保证 事务 的 ACID。 可 以 说 ,数据 库 系统 是 伴 
随 着 金融 业 的 需求 而 快速 发 展 起 来 的 。 对 于 金融 业 , 可 用 性 和 性 能 都 不 是 最 重要 的 ,而 一 致 
性 是 最 重要 的 ,用 户 可 以 容忍 系统 故障 而 停止 服务 ,但 绝 不 能 容忍 账户 上 的 钱 无 故 减 少 ( 当 
然 , 无 故 增加 是 可 以 的 )。 而 强 一 致 性 的 事务 是 这 一 切 的 根本 保证 。 

3. BASE 思想 


BASE 思想 来 自 于 因特网 的 电子 商务 领域 的 实践 , 它 是 基于 CAP 理论 逐步 演化 而 
来 ,核心 思想 是 即便 不 能 达到 强 一 致 性 (Strong Consistency) ,但 可 以 根据 应 用 特点 采用 适 
当 的 方式 来 达到 最 终 一 致 性 (Eventual Consistency) 的 效果 。BASE 是 Basically Available、 
Soft state, Eventually Consistent 三 个 词组 的 简写 ,是 对 CAP 中 C&A 的 延伸 。BASE 的 
BM: 

。 Basically Available: 基本 可 用 。 

。 Soft-state: 软 状态 /柔性 事务 , 即 状态 可 以 有 一 段 时 间 的 不 同步 。 

。 Eventual Consistency: 最 终 一 致 性 。 

BASE 是 反 ACID 的 ,完全 不 同 于 ACID 模型 ,牺牲 强 一致 性 ,获得 基本 可 用 性 和 可 靠 
性 ,并 要 求 达到 最 终 一 致 性 。 

CAP、BASE 理论 是 当前 在 因特网 领域 非常 流行 的 分 布 式 NoSQL 的 理论 基础 。 


5.1.3 NoSQL 的 共同 特征 


对 于 NoSQL 并 没有 一 个 明确 的 范围 和 定义 ,但 是 它们 都 普遍 存在 下 面 一 些 共同 特征 : 

CL) 不 需要 预定 义 模式 。 不 需要 事先 定义 数据 模式 ,预定 义 表 结 构 。 数 据 中 的 每 条 记 
录 都 可 能 有 不 同 的 属性 和 格式 。 当 插入 数据 时 ,并 不 需要 预先 定义 它们 的 模式 。 

(2) 无 共享 架构 。 相 对 于 将 所 有 数据 存储 的 区 域 网 络 中 的 全 共享 架构 而 言 。NoSQL 
往往 将 数据 划分 后 存储 在 各 个 本 地 服务 器 上 。 因 为 从 本 地 磁盘 读 取 数 据 的 性 能 往往 好 于 通 
过 网 络 传 输 读 取 数 据 的 性 能 ,从 而 提高 了 系统 的 性 能 。 

(3) 弹性 可 扩展 。 可 以 在 系统 运行 的 时 候 动态 增加 或 者 删除 节点 。 不 需要 停机 维护 ， 
数据 可 以 自动 迁移 。 

(4) 分 区 。 相 对 于 将 数据 存放 于 同一 个 节点 ,NoSQL 数据 库 需 要 将 数据 进行 分 区 ,将 
记录 分 散在 多 个 节点 上 面 ,并 且 通 常 分 区 的 同时 还 要 做 复制 。 这 样 既 提 高 了 并 行 性 能 ,又 能 
保证 没有 单 点 失效 的 问题 。 

(5) 异步 复制 。 和 RAID 存储 系统 不 同 的 是 ,NoSQL 中 的 复制 往往 是 基于 日 志 的 异步 
复制 。 这 样 数据 就 可 以 尽快 地 写 入 一 个 节点 ,不 会 被 网 络 传输 而 引起 迟延 。 缺 点 是 并 不 总 
是 能 保证 一 致 性 ,这 样 的 方式 在 出 现 故障 的 时 候 可 能 会 丢失 少量 的 数据 。 
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相对 于 事务 严格 的 ACID 特性 ,NoSQL 数据 库 保证 的 是 BASE 特性 。BASE 是 最 终 一 
致 性 和 软 事务 。 

NoSQL 数据 库 并 没有 一 个 统一 的 架构 ,两 种 NoSQL 数据 库 之 间 的 不 同 甚至 远 远 超过 
两 种 关系 型 数据 库 的 不 同 。 可 以 说 ,NoSQL 各 有 所 长 ,成 功 的 NoSQL 必然 特别 适用 于 某 
些 场 合 或 者 某 些 应 用 ,在 这 些 场合 中 会 远 远 胜 过 关系 型 数据 库 和 其 他 的 NoSQL. 








5.2 HBase 数据 库 


5.2.1 HBase 简介 


HBase( Hadoop Database) 是 一 个 高 可 靠 性 .高 性 能 ,面向 列 . 可 伸缩 的 分 布 式 存储 系 
统 , 利 用 HBase 技术 可 在 廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 。 

HBase 是 Google Bigtable 的 开源 实现 ,类 似 Google Bigtable 利用 GFS 作为 其 文件 存 
储 系统 ,HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 ; Google 运行 MapReduce 来 处 理 
Bigtable 中 的 海量 数据 ,HBase 同样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数 
据 ; Google Bigtable 利用 Chubby 作为 协同 服务 ,HBase 利用 ZooKeeper 作为 对 应 。 

图 5-1 描述 了 Hadoop Ecosystem 中 的 各 层 系统 ,其 中 HBase 位 于 结构 化 存储 层 ， 
Hadoop HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 , Hadoop MapReduce 为 HBase 
提供 了 高 性 能 的 计算 能 力 ,ZooKeeper 为 HBase 提供 了 稳定 服务 和 Failover 机 制 。 


The Hadoop Ecosystem 





Pig(Data Flow) | Hive(SQL) Sqoop 


MapReduce(Job Scheduling/Execution System) 
HBase(Column DB) 
HDFS 
(Hadoop Distributed File System) 


图 5-1 HBase 在 Hadoop 生态 系统 的 层次 
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此 外 ,Pig 和 Hive 还 为 了 Base 提供 了 高 层 语言 支持 ,使 得 在 HBase 上 进行 数据 统计 处 
理 变 得 非常 简单 。Sqoop 则 为 HBase 提供 了 方便 的 RDBMS 数据 导入 功能 ,使 得 传统 数据 
库 数据 向 HBase 中 迁移 变 得 非常 方便 。 





5.2.2 HBase 访问 接口 


1. Native Java API 
它 是 最 常规 和 高 效 的 访问 方式 ,适合 Hadoop MapReduce Job 并 行 批 处 理 HBase 表 
数据 。 
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2. HBase Shell 

它 是 HBase 的 命令 行 工 具 , 最 简单 的 接口 ,适合 HBase 管理 使 用 。 

3. Thrift Gateway 

利用 Thrift 序列 化 技术 ,支持 C++ .PHP、Python 等 多 种 语言 ,适合 其 他 异 构 系 统 在 线 
访问 HBase 表 数 据 。 

4. REST Gateway 

它 支 持 REST 风格 的 Http API 访问 HBase, 解 除了 语言 限制 。 

5. Pig 

可 以 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 ,和 Hive 类 似 ,本 质 最 终 也 
是 编译 MapReduce Job 来 处 理 HBase 表 数 据 , 适 合 做 数据 统计 。 

6. Hive 


当前 Hive 的 Release 版 本 尚 已 经 加 入 对 HBase 的 支持 ,可 以 使 用 类 似 SQL 语言 来 访 
问 HBase。 


5.2.3 HBase 数据 模型 


1. Table & Column Family 
HBase 表 结 构 如 表 5-2 所 示 。 


表 5-2 HBase 表 结 构 




















Column Family 
Row Key Timestamp 
URI Parser 

t3 url= http://www. taobao, com title 王 天 天 特价 
rl t2 host= taobao. com 

tl 

5 t5 url= http://www. alibaba. com content 一 每 天 … 

ri 

t4 host=alibaba. com 











。 Row Key: 行 键 ,Table 的 主键 ,Table 中 的 记录 按照 Row Key 排序 。 
e Timestamp; 时 间 惟 ,每 次 数据 操作 对 应 的 时 间 惟 ,可 以 看 作 是 数据 的 version 
number。 
Column Family: FJK. Table 在 水 平方 向 由 一 个 或 多 个 Column Family 组 成 ,一 个 
Column Family 可 以 由 任意 多 个 Column 组 成 , 即 Column Family 支持 动态 扩展 ,无 
须 预先 定义 Column 的 数量 及 类 型 ,所 有 Column 均 以 二 进 制 格式 存储 ,用 户 需 要 自 
行进 行 类 型 转换 。 

2. Table & Region 

当 Table 随 着 记录 数 不 断 增加 而 变 大 后 ,会 逐渐 分 裂 成 多 份 splits, 成 为 regions, 一 个 
region 由 [startkey,endkey) 表 示 , 不 同 的 region 会 被 Master 分 配给 相应 的 RegionServer 
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进行 管理 ,如 图 5-2 所 示 。 
3. -ROOT- & & .META. 表 
HBase 中 有 两 张 特殊 的 表 : -ROOT- 和 .META. 。 
。 .META. : 记录 了 用 户 表 的 Region 信息 ,.META. 可 以 有 多 个 region. 
。 -ROOT-: 记录 了 .META. 表 的 Region 信息 , -ROOT- 只 有 一 个 region。 
Zookeeper 中 记录 了 -ROOT- 表 的 location ,如 图 5-3 所 示 。 





























UserTablel 
Assignment 
Table with splits to regionservers 
Keys: [0~2] 
Keys: [2~4] <£ ZooKeeper file 
a i 
Keys: [4~7] LA G) 























Keys: [7~8] | _ (3) 


Keys: [8~0] 








图 5-2 HBase 数据 分 片 结构 图 5-3 HBase 中 表 的 访问 层次 





client 访问 用 户 数据 之 前 需要 首先 访问 ZooKeeper, 然 后 访问 -ROOT- 表 ,接着 访问 
.META. 表 ,最 后 才能 找到 用 户 数 据 的 位 置 去 访问 ,中 间 需 要 多 次 网 络 操作 ,不 过 client 会 
做 cache 缓存 。 


5.2.4 MapReduce on HBase 


在 HBase 系统 上 运行 批 处 理 运算 ,最 方便 和 实用 的 模型 依然 是 MapReduce, 如 图 5-4 
所 示 。 






Inputs: 





Outputs: 




















region 0 
































region 4 






































Table 




















图 5-4 HBase 和 MapReduce 关系 


HBase Table 和 Region 的 关系 比较 类 似 HDFS File 和 Block 的 关系 ,HBase 提供 了 配 
套 的 TableInputFormat 和 TableOutputFormat API. 可 以 方便 的 将 HBase Table 作为 
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Hadoop MapReduce 的 Source 和 Sink, 对 于 MapReduce Job 应 用 开发 人 员 来 说 ,基本 不 需 
要 关注 HBase 系统 自身 的 细节 。 


5.2.5 HBase 系统 架构 
HBase 系统 架构 如 图 5-5 所 示 。 
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HRegionServer | HRegionServer 
HRegion !| | HRegion 
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g 2 StoreFile || StoreFile | ___ || | StoreFile a | StoreFile || StoreFile | .|| | StoreFile 
HFile HFile| [HFite] - [HFite] HFile| HFile| 
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«| GG foo ONOO DOODODOD || o 口 Oo 

$ o /Pooo OO 

2| 00000 000000 || 0000 口 口 

DataNode DataNode DataNode DataNode 
图 5-5 HBase 系统 架构 
1. Client 


HBase Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 ,对 于 
管理 类 操作 ,Client 与 HMaster 进行 RPC; 对 于 数据 读 写 类 操作 ,Client 与 HRegionServer 
进行 RPC, 

2. ZooKeeper 

ZooKeeper Quorum 中 除了 存储 -ROOT- 表 的 地 址 和 HMaster 的 地 址 外 ,HRegionServer 也 
会 把 自己 以 Ephemeral 方式 注册 到 ZooKeeper 中 ,使 得 HMaster 可 以 随时 感知 到 各 个 
HRegionServer 的 健康 状态 。 此 外 .ZooKeeper 也 避免 了 HMaster 的 单 点 问题 , 见 下 文 描述 。 

3. HMaster 

HMaster 没有 单 点 问题 ,HBase 中 可 以 启动 多 个 HMaster, 通 过 ZooKeeper 的 Master 
Election 机 制 保证 总 有 一 个 Master 运行 。HMaster 在 功能 上 主要 负责 Table 和 Region 的 
管理 工作 。 

(1) 管理 用 户 对 Table 的 增 、 删 \ 改 、 查 操作 。 

(2) 管理 HRegionServer 的 负载 均衡 ,调整 Region 分 布 。 
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(3) 在 Region Split 后 负责 新 Region 的 分 配 。 
(4) 在 HRegionServer 停机 后 负责 失效 HRegionServer 上 的 Regions 迁移 。 
4. HRegionServer 


HRegionServer 主要 负责 响应 用 户 I/O 请 求 ,向 HDFS 文件 系统 中 读 写 数据 ,是 
HBase 中 最 核心 的 模块 。 

HRegionServer 内 部 管理 了 一 系列 HRegion 对 象 ,每 个 HRegion 对 应 了 Table 中 的 一 
个 Region, HRegion 由 多 个 HStore 组 成 ,如 图 5-6 所 示 。 每 个 HStore 对 应 了 Table 中 的 
一 个 Column Family 的 存储 ,可 以 看 出 每 个 Column Family 其 实 就 是 一 个 集中 的 存储 单元 ， 
因此 最 好 将 具备 共同 1/0 特性 的 Column 放 在 一 个 Column Family 中 ,这样 最 高 效 。 


















MemStore Store 
StoreFile StoreFile | ... 
HFile HFile | 


MemStore_) Store 


ooo HRegion 
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ooo HRegion StoreFile 


HFile 


Client 
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~put() 











-delete() 
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HRegionServer 


MemStore Store 
ooo HRegion 


StoreFile StoreFile | |. 
HFile HFile 
Log 
Flusher syne() 
-一 一 一 一 


Log 4 
-a| E 
Roller | | rollWriter() | 


图 5-6 HRegionServer 内 部 管理 




















































































HStore 存储 是 HBase 存储 的 核心 , 它 由 两 部 分 组 成 ,一 部 分 是 MemStore, 另 一 部 分 是 
StoreFiles。MemStore 是 Sorted Memory Buffer, 用 户 写 入 的 数据 首先 会 放 入 MemStore， 
当 MemStore 满 了 以 后 会 Flush 成 一 个 StoreFile( 底 层 实 现 是 HFile) , 当 StoreFile 文件 数 
量 增长 到 一 定 阐 值 会 触发 Compact 合并 操作 ,将 多 个 StoreFiles 合并 成 一 个 StoreFile。 合 
并 过 程 中 会 进行 版 本 合并 和 数据 删除 ,因此 可 以 看 出 HBase 其 实 只 有 增加 数据 ,所 有 的 更 
新 和 删除 操作 都 是 在 后 续 的 Compact 过 程 中 进行 的 ,这 使 得 用 户 的 写 操作 只 要 进入 内 存 中 
就 可 以 立即 返回 ,保证 了 HBase I/O 的 高 性 能 。 当 StoreFiles Compact 后 会 逐步 形成 越 来 
越 大 的 StoreFile, 当 单个 StoreFile 大 小 超过 一 定 阀 值 后 会 触发 Split 操作 ,同时 把 当前 
Region Split 成 两 个 Region. 父 Region 会 下 线 , 新 Split 出 的 两 个 孩子 Region 会 被 
HMaster 分 配 到 相应 的 了 RegionServer 上 .使 得 原先 一 个 Region 的 压力 得 以 分 流 到 两 个 
Region 上 。 图 5-7 描述 了 Compaction 和 Split 的 过 程 。 

在 理解 了 上 述 HStore 的 基本 原理 后 ,还 必须 了 解 一 下 HLog 的 功能 ,因为 上 述 的 
HStore 在 系统 正常 工作 的 前 提 下 是 没有 问题 的 ,但 是 在 分 布 式 系统 环境 中 无 法 避免 系统 出 
错 或 者 宕 机 ,因此 一 旦 HRegionServer 意外 退出 , MemStore 中 的 内 存 数据 将 会 丢失 ,这 就 
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StoreFileSB 
(128MB) StoreFile7 


(128MB) 


Compaction StoreFileS Split ae eee 
2 
StoreFile3(64MB) (256MB) 
StoreFile4(64MB) 


StoreFile1(64MB) StoreFile6 
StoreFileSA (128MB) 
StoreFile2(64MB) (128MB) 





图 5-7 Compaction 和 Split 过 程 


需要 引入 HLog 了 。 每 个 HRegionServer 中 都 有 一 个 HLog 对 象 ,HLog 是 一 个 实现 Write 
Ahead Log 的 类 ,在 每 次 用 户 操作 写 入 MemStore 的 同时 也 会 写 一 份 数据 到 HLog 文件 中 
(HLog 文件 格式 见 后 续 ), HLog 文件 定期 会 滚动 出 新 的 ,并 删除 旧 的 文件 (已 持久 化 到 
StoreFile 中 的 数据 )。 当 HRegionServer 意外 终止 后 ,HMaster 会 通过 ZooKeeper 感知 到 ， 
HMaster 首先 会 处 理 遗 留 的 HLog 文件 ,将 其 中 不 同 Region 的 Log 数据 进行 拆 分 ,分 别 放 
到 相应 region 的 目录 下 ,然后 再 将 失效 的 region 重新 分 配 ,领取 到 这 些 region 的 
HRegionServer 在 Load Region 的 过 程 中 会 发 现 有 历史 HLog 需要 处 理 ,因此 会 Replay 
HLog 中 的 数据 到 MemStore 中 ,然后 flush 到 StoreFiles ,完成 数据 恢复 。 

5. HBase 存储 格式 

HBase 中 的 所 有 数据 文件 都 存储 在 Hadoop HDFS 文件 系统 上 ,主要 包括 上 述 提出 的 
两 种 文件 类 型 : 

(1) HFile。HBase 中 键 值 数据 的 存储 格式 ,HFile 是 Hadoop 的 二 进 制 格式 文件 ,实际 
上 StoreFile 就 是 对 HFile 做 了 轻 量 级 包装 , 即 StoreFile 底层 就 是 HFile。 

(2) HLog File, HBase 中 WAL(Write Ahead Log) 的 存储 格式 ,物理 上 是 Hadoop 的 
Sequence File, 

6. HFile 

图 5-8 展示 了 HFile 的 存储 格式 。 
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图 5-8 ”HFile 的 存储 格式 


首先 HFile 文件 是 不 定 长 的 ,长 度 固定 的 只 有 其 中 的 两 块 : Trailer 和 File Info。 在 
图 5-8 中 ,Trailer 中 有 指针 指向 其 他 数据 块 的 起 始点 。File Info 中 记录 了 文件 的 一 些 Meta 
信息 ,如 AVG_KEY_LEN,AVG_VALUE_LEN,LAST_KEY,.COMPARATOR #1 MAX__ 
SEQ_ID_KEY “,. Data Index 块 和 Meta Index 块 记录 了 每 个 Data 块 和 Meta 块 的 起 
始点 。 
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Data Block 是 HBase I/O 的 基本 单元 ,为 了 提高 效率 ,HRegionServer 中 有 基于 LRU 
的 Block Cache 机 制 。 每 个 Data 块 的 大 小 可 以 在 创建 一 个 Table 的 时 候 通过 参数 指定 ,大 
号 的 Block 有 利于 顺序 Scan, 小 号 Block 利于 随机 查询 。 每 个 Data 块 除 了 开头 的 Magic 以 
外 就 是 一 个 个 KeyValue 对 拼接 而 成 ,Magic 内 容 就 是 一 些 随机 数字 ,目的 是 防止 数据 损 
坏 。 后 面 会 详细 介绍 每 个 键 值 对 的 内 部 构造 。 

HFile 里 面 的 每 个 键 值 对 就 是 一 个 简单 的 byte 数组 。 但 是 这 个 byte 数组 里 面包 含 了 
很 多 项 ,并 且 有 固定 的 结构 ,如 图 5-9 所 示 。 
Key 








Key | Value | Row Calima Column | Column | Time | Key 


Row | Family i ii 
Length | Length | Length Length Family | Qualifier | Stamp | Type 
4B 4B 2B 1B 8B 1B 


图 5-9 HFile 结构 


开始 是 两 个 固定 长 度 的 数值 ,分 别 表示 Key 的 长 度 和 Value 的 长 度 。 紧 接着 是 Key， 
这 部 分 开始 是 固定 长 度 的 数值 ,表示 RowKey 的 长 度 , 紧 接着 是 RowKey, 然 后 是 固定 长 度 
的 数值 ,表示 Family 的 长 度 , 然 后 是 Family ,接着 是 Qualifier, 然 后 是 两 个 固定 长 度 的 数值 ， 
表示 Time Stamp 和 Key Type(Put/Delete)。Value 部 分 没有 这 么 复杂 的 结构 ,就 是 纯粹 的 
二 进 制 数据 了 。 

7. HLogFile 

图 5-10 中 示意 了 HLog 文件 的 结构 ,其 实 HLog 文件 就 是 一 个 普通 的 Hadoop Sequence 
File, Sequence File 的 Key 是 HLogKey 对 象 ,HLogKey 中 记录 了 写 入 数据 的 归属 信息 , 除 
了 table 和 region 名 字 外 ,同时 还 包括 sequence number 和 timestamp. timestamp 是 “ 写 入 
时 间 ”, sequence number 的 起 始 值 为 0, 或 者 是 最 近 一 次 存 入 文件 系统 中 的 sequence 
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图 5-10 HLog 文件 结构 


HLog Sequece File 的 Value 是 HBase 的 KeyValue 对 象 , 即 对 应 HFile 中 的 KeyValue, 可 
参见 上 文 描述 。 
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5.3 ”本章 小 结 


本 章 介 绍 的 NoSQL(Not Only SQL) 是 一 项 全 新 的 数据 库 革 命 性 运动 ,然后 引出 分 布 
式 数 据 库 的 重要 理论 CAP, 最 后 介绍 了 HBase。 

CAP 理论 指出 : 一 个 分 布 式 系 统 不 可 能 同时 满足 一 致 性 (Consistency)、 可 用 性 
(Availibility) 和 分 区 容忍 性 (Partition Tolerance) 这 三 个 需求 ,最 多 只 能 同时 满足 其 中 的 
两 个 。 

HBase 是 Google Bigtable 的 开源 实现 ,是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 
布 式 存储 系统 ,利用 HBase 技术 可 在 廉价 PC Server 上 搭建 大 规模 结构 化 存储 集群 。 
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6.1 机 器 学 习 概 述 


机 器 学 习 使 用 计算 机 模拟 人 类 的 学 习 活动 , 它 是 研究 计算 机 识别 现 有 知识 ` 获 取 新 知 
识 , 不 断 改 善 性 能 和 实现 自身 完善 的 方法 ,是 大 数据 的 关键 技术 。 


6.1.1 机 器 学 习 分 类 


1， 基 于 学 习 策 略 的 分 类 

学 习 策略 是 指 学 习 过 程 中 系统 所 采用 的 推理 策略 。 一 个 学 习 系 统 总 是 由 学 习 和 环境 两 
部 分 组 成 。 由 环境 (如 书本 或 教师 提供 信息 ,学 习 部 分 则 实现 信息 转换 ,用 能 够 理解 的 形式 
记忆 下 来 ,并 从 中 获取 有 用 的 信息 。 在 学 习 过 程 中 ,学 生 ( 学 习 部 分 ) 使 用 的 推理 越 少 ,他 对 
教师 (环境 ) 的 依赖 就 越 大 ,教师 的 负担 也 就 越 重 。 学 习 策 略 的 分 类 标准 就 是 根据 学 生 实现 
信息 转换 所 需 的 推理 多 少 和 难 易 程 度 来 分 类 ,按照 从 简单 到 复杂 ,从 少 到 多 的 次 序 分 为 以 下 
6 种 基本 类 型 : 

(1) 机 械 学 习 (Rote Learning) 。 

学 习 者 无 须 任何 推理 或 其 他 的 知识 转换 ,直接 吸取 环境 所 提供 的 信息 。 如 塞 综 尔 的 跳 
棋 程 序 , 纽 厄 尔 和 西蒙 的 LT 系统 。 这 类 学 习 系 统 主要 考虑 的 是 如 何 索 引 存 储 的 知识 并 加 
以 利用 。 系 统 的 学 习 方 法 是 直接 通过 事先 编 好 、 构 造 好 的 程序 来 学 习 , 学 习 者 不 作 任 何 工 
作 ,或 者 是 通过 直接 接收 既定 的 事实 和 数据 进行 学 习 , 对 输入 信息 不 作 任 何 的 推理 。 

(2) 示 教 学 习 (Learning from Instruction 或 Learning by Being Told) 。 

学 生 从 环境 (教师 或 其 他 信息 源 , 如 教科 书 等 ) 获 取信 息 ,把 知识 转换 成 内 部 可 使 用 的 表 
示 形 式 , 并 将 新 的 知识 和 原 有 知识 有 机 地 结合 为 一 体 。 所 以 要 求学 生 有 一 定 程度 的 推理 能 
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力 , 但 环境 仍 要 做 大 量 的 工作 。 教 师 以 某 种 形式 提出 和 组 织 知识 ,以 使 学 生 拥 有 的 知识 可 以 
不 断 地 增加 。 这 种 学 习 方法 和 人 类 社会 的 学 校 教学 方式 相似 ,学 习 的 任务 就 是 建立 一 个 系 
统 , 使 它 能 接受 教导 和 建议 ,并 有 效 地 存储 和 应 用 学 到 的 知识 。 不 少 专家 系统 在 建立 知识 库 
时 使 用 这 种 方法 去 实现 知识 获取 。 示 教学 习 的 一 个 典型 用 例 是 FOO 程序 。 

(3) 演绎 学 习 (Learning by Deduction) 。 

学 生 所 用 的 推理 形式 为 演绎 推理 。 推 理 从 公理 出 发 ,经 过 逻辑 变换 推导 出 结论 。 这 种 
推理 是 “ 保 真 ”变换 和 特 化 (Specialization) 的 过 程 ,使 学 生 在 推理 过 程 中 可 以 获取 有 用 的 知 
识 。 这 种 学 习 方法 包含 宏 操 作 (Macro-Operation) 学 习 、 知 识 编辑 和 组 块 (Chunking) 技 术 。 
演绎 推理 的 逆 过 程 是 归纳 推理 。 

(4) 类 比 学 习 (Learning by Analogy)。 

利用 两 个 不 同 领 域 ( 源 域 . 目 标 域 ) 中 的 知识 相似 性 ,可 以 通过 类 比 ,从 源 域 的 知识 (包括 
相似 的 特征 和 其 他 性 质 ) 推 导出 目标 域 的 相应 知识 ,从 而 实现 学 习 。 类 比 学 习 系 统 可 以 
使 一 个 已 有 的 计算 机 应 用 系统 转变 为 适应 于 新 的 领域 来 完成 原先 没有 设计 的 相 类 似 的 
功能 。 

类 比 学 习 需 要 比 上 述 3 种 学 习 方式 更 多 的 推理 。 它 一 般 要 求 先 从 知识 源 ( 源 域 ) 中 检索 
出 可 用 的 知识 ,再 将 其 转换 成 新 的 形式 ,用 到 新 的 状况 (目标 域 ) 中 去 。 类 比 学 习 在 人 类 科学 
技术 发 展 史上 起 着 重要 作用 ,许多 科学 发 现 就 是 通过 类 比 得 到 的 。 例 如 著名 的 卢 瑟 福 类 比 
就 是 通过 将 原子 结构 (目标 域 ) 同 太阳 系 ( 源 域 ) 作 类 比 ,揭示 了 原子 结构 的 奥秘 。 

(5) 基于 解释 的 学 习 (Explanation-Based Learning, EBL). 

学 生根 据 教 师 提供 的 目标 概念 、 该 概念 的 一 个 例子 、 领 域 理 论 及 可 操作 准则 ,首先 构造 
一 个 解释 来 说 明 为 什么 该 例子 满足 目标 概念 ,然后 将 解释 推广 为 目标 概念 的 一 个 满足 可 操 
作 准 则 的 充分 条 件 。EBL 已 被 广泛 应 用 于 知识 库 求 精 和 改善 系统 的 性 能 。 

著名 的 EBL 系统 有 迪 乔 恩 (G. DeJong) 的 GENESIS, 米 切 尔 (T. Mitchell) 的 LEXI 和 
LEAP, 以 及 明 顿 (S. Minton) ff] PRODIGY. 

(6) 归纳 学 习 (Learning from Induction) 。 

归纳 学 习 是 由 教师 或 环境 提供 某 个 概念 的 一 些 实例 或 反例 ,让 学 生 通过 归纳 推理 得 出 
该 概念 的 一 般 描述 。 这 种 学 习 的 推理 工作 量 远 多 于 示 教 学 习 和 演绎 学 习 , 因 为 环境 并 不 提 
供 一 般 性 概念 描述 (如 公理 ) 。 从 某 种 程度 上 说 ,归纳 学 习 的 推理 量 也 比 类 比 学 习 大 ,因为 没 
有 一 个 类 似 的 概念 可 以 作为 “ 源 概念 "加 以 取 用 。 归 纳 学 习 是 最 基本 的 、 发 展 也 较为 成 熟 的 
学 习 方法 ,在 人 工 智能 领域 中 已 经 得 到 广泛 的 研究 和 应 用 。 

2. 学 习 形式 分 类 

包括 有 指导 学 习 (Supervised Learning)、 无 指导 学 习 (Unsupervised Learning) 和 半 指 
导 学 习 (Semi -Supervised Learning)3 种 类 别 。 

(1) 有 指导 学 习 。 之 所 以 称 为 “有 指导 的 ”. 是 指 有 结果 度量 (Outcome Measurement) 
的 指导 学 习 过 程 。 和 希望 根据 一 组 特征 (Features) 对 结果 度量 进行 预测 ,如 根据 某 病 人 的 饮 
食 习惯 和 血糖 ` 血 脂 值 来 预测 糖尿 病 是 否 会 发 作 。 通 过 学 习 已 知 数据 集 的 特征 和 结果 度量 
建立 起 预测 模型 来 预测 并 度量 未 知 数据 的 特征 和 结果 。 这 里 的 结果 度量 一 般 有 定量 的 
(Quantitative, 例 如 身高 ,体重 ) 和 定性 的 (Qualitative, 例 如 性 别 ) 两 种 ,分 别 对 应 于 统计 学 
中 的 回归 (Regression) 和 分 类 (Classification) 问题 。 常 见 的 有 指导 学 习 包 括 决 策 树 、 
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Boosting 与 Bagging 算法 、 人 工 神经 网 络 和 支持 向 量 机 等 。 

(2) 无 指导 学 习 。 在 无 指导 学 习 中 只 能 观察 特征 ,没有 结果 度量 。 此 时 只 能 利用 从 总 
体 中 给 出 的 样本 信息 对 总 体 做 出 某 些 推断 及 描述 数据 是 如 何 组 织 或 聚 类 的 。 它 并 不 需要 某 
个 目标 变量 和 训练 数据 集 , 例 如 聚 类 分 析 或 关联 规则 分 析 等 。 

(3) 半 指 导 学 习 。 半 指导 学 习 是 近年 来 机 器 学 习 中 一 个 备 受 瞩目 的 内 容 。 已 得 的 观察 
量 中 一 部 分 是 经 由 指导 者 鉴 认 并 加 上 了 标识 的 数据 , 称 为 已 标识 数据 ; 另 一 部 分 观察 量 由 
于 种 种 原因 未 能 标识 ,被 称 为 未 标识 数据 。 需 要 解决 的 是 ,利用 这 些 观察 量 (包括 已 标识 数 
据 和 未 标识 数据 ) 及 相关 的 知识 对 观察 量 做 出 适当 合理 的 推断 。 解 决 这 类 问题 的 常用 方法 
是 采用 归纳 -演绎 式 的 两 步骤 路 径 , 即 先 利 用 已 标识 数据 去 分 析 并 指出 适当 的 一 般 性 的 规 
律 ,再 利用 此 规律 去 推断 得 出 有 关 未 标识 数据 的 标识 。 这 里 前 一 步 是 从 特殊 得 到 一 般 结论 
的 归纳 步 ,后 一 步 则 是 将 一 般 规律 用 于 特殊 情况 的 演绎 步 。 这 里 的 关键 是 如 何 选择 出 合 i 
的 无 标识 样本 并 进行 标记 。 值 得 注意 的 是 , 现 有 的 半 指 导 学 习 方法 的 性 能 通常 不 太 稳 定 , 而 
半 指 导 学 习 技 术 在 什么 样 的 条 件 下 能 够 有 效 地 改善 学 习性 能 仍然 是 一 个 未 决 问题 。 比 较 有 
代表 的 做 法 有 : 利用 Naive Bayes 这 样 的 生成 式 模型 (Generative Model) ,通过 EM 算法 进 
行 标记 估计 和 参数 估计 ; 通过 转 导 推断 (Transductive Inference) 来 优化 特定 测试 集 上 的 性 
能 ; 利用 独立 元 余 的 属性 集 进 行 协同 训练 等 。 

3. 基于 所 获取 知识 的 表示 形式 分 类 

学 习 系统 获 取 的 知识 可 能 有 行为 规则 、 物 理 对 象 的 描述 .问题 求解 策略 、 各 种 分 类 及 其 
他 用 于 任务 实现 的 知识 类 型 。 

对 于 学 习 中 获取 的 知识 ,主要 有 以 下 一 些 表示 形式 : 

(1) 代数 表达 式 参 数 。 

学 习 的 目标 是 调节 一 个 固定 函数 形式 的 代数 表达 式 参数 或 系数 来 达到 一 个 理想 的 
性 能 。 

(2) 决策 树 。 

用 决策 树 来 划分 物体 的 类 属 , 树 中 每 一 个 内 部 节点 对 应 一 个 物体 属性 ,而 每 一 边 对 应 于 
这 些 属性 的 可 选 值 , 树 的 叶 节 点 则 对 应 于 物体 的 每 个 基本 分 类 。 

(3) 形式 文法 。 

在 识别 一 个 特定 语言 的 学 习 中 ,通过 对 该 语言 的 一 系列 表达 式 进 行 归纳 ,形成 该 语言 的 
形式 文法 。 

(4) 产生 式 规则 。 

产生 式 规则 表示 为 条 件 -动作 对 ,已 被 极为 广泛 地 使 用 。 学 习 系统 中 的 学 习 行为 主要 是 
生成 、 泛 化 . 特 化 (Specialization) 或 合成 产生 式 规 则 。 

(5) 形式 逻辑 表达 式 。 

形式 逻辑 表达 式 的 基本 成 分 是 命题 .谓词 ,变量 .约束 变量 范围 的 语句 ,以 及 嵌入 的 逻辑 
表达 式 。 

(6) 图 和 网 络 。 

有 的 系统 采用 图 匹配 和 图 转换 方案 来 有 效 地 比较 和 索引 知识 。 

(7) 框架 和 模式 (Schema) 。 

每 个 框架 包含 一 组 槽 ,用 于 描述 事物 (概念 和 个 体 ) 的 各 个 方面 。 
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(8) 计算 机 程序 和 其 他 的 过 程 编码 。 

获取 这 种 形式 的 知识 ,目的 在 于 取得 一 种 能 实现 特定 过 程 的 能 力 , 而 不 是 为 了 推断 该 过 
程 的 内 部 结构 。 

(9) 神经 网 络 。 

主要 用 在 连接 学 习 中 。 学 习 所 获取 的 知识 ,最 后 归纳 为 一 个 神经 网 络 。 

(10) 多 种 表示 形式 的 组 合 。 

有 时 一 个 学 习 系统 中 获取 的 知识 需要 综合 应 用 上 述 几 种 知识 表示 形式 。 

根据 表示 的 精细 程度 ,可 将 知识 表示 形式 分 为 两 大 类 : 泛 化 程度 高 的 粗 粒 度 符号 表示 
和 泛 化 程度 低 的 精 粒 度 亚 符号 (Sub-symbolic) 表 示 。 像 决策 树 .形式 文法 .产生 式 规则 、 形 
式 逻 辑 表达 式 .框架 和 模式 等 属于 符号 表示 类 ; 而 代数 表达 式 参数 .图 和 网 络 、 神 经 网 络 等 
则 属于 亚 符号 表示 类 。 

4. 综合 分 类 

综合 考虑 各 种 学 习 方 法 出 现 的 历史 济源、 知识 表 示 、 推 理 策略 、 结 果 评 估 的 相似 性 、 研 究 
人 员 交 流 的 相对 集中 性 及 应 用 领域 等 诸 因素 ,将 机 器 学 习 方 法 区 分 为 以 下 6 K: 

(1) 经 验 性 归纳 学 习 (Empirical Inductive Learning) 。 

经 验 性 归纳 学 习 采 用 一 些 数据 密集 的 经 验方 法 (如 版 本 空间 法 .ID3 法 .定律 发 现 方法 ) 
对 例子 进行 归纳 学 习 。 其 例子 和 学 习 结 果 一 般 都 采用 属性 .谓词 ,关系 等 符号 表示 。 它 相当 
于 基于 学 习 策 略 分 类 中 的 归纳 学 习 , 但 扣除 连接 学 习 、 遗 传 算法 、 加 强 学 习 的 部 分 。 

(2) 分 析 学 习 (Analytic Learning)。 

分 析 学 习 方 法 是 从 一 个 或 少数 几 个 实例 出 发 ,运用 领域 知识 进行 分 析 。 其 主要 特征 为 : 

O 推理 策略 主要 是 演绎 ,而 非 归 纳 。 

© 使 用 过 去 的 问题 求解 经 验 (实例 ) 指 导 新 的 问题 求解 ,或 产生 能 更 有 效 地 运用 领域 知 
识 的 搜索 控制 规则 。 

分 析 学 习 的 目标 是 改善 系统 的 性 能 ,而 不 是 新 的 概念 描述 。 分 析 学 习 包 括 应 用 解释 学 
习 、 演 绎 学 习 、 多 级 结构 组 块 及 宏 操 作 学 习 等 技术 。 

(3) 类 比 学 习 。 

相当 于 基于 学 习 策略 分 类 中 的 类 比 学 习 。 在 这 一 类 型 的 学 习 中 ,比较 引 人 注 目的 研究 
是 通过 与 过 去 经 历 的 具体 事例 作 类 比 来 学 习 , 称 为 基于 范例 的 学 习 (Case Based Learning). 
或 简称 范例 学 习 。 

(4) 遗传 算法 (Genetic Algorithm) 。 

遗传 算法 模拟 生物 繁殖 的 突变 .交换 和 达尔 文 的 自然 选择 (在 每 一 个 生态 环境 中 适 者 生 
存 )。 它 把 问题 可 能 的 解 编码 为 一 个 向 量 , 称 为 个 体 , 向 量 的 每 一 个 元 素 称 为 基因 ,并 利用 目 
标 函 数 ( 相 应 于 自然 选择 标准 ) 对 群体 (个 体 的 集合 ) 中 的 每 一 个 个 体 进行 评价 ,根据 评价 值 
(适应 度 ) 对 个 体 进行 选择 .交换 .变异 等 遗传 操作 ,从 而 得 到 新 的 群体 。 遗 传 算法 适用 于 非 
常 复 杂 和 困难 的 环境 ,如 带 有 大 量 噪 声 和 无 关 数 据 . 事 物 不 断 更 新 .问题 目标 不 能 明显 和 精 
确 地 定义 ,以 及 通过 很 长 的 执行 过 程 才 能 确定 当前 行为 的 价值 等 。 同 神经 网 络 一 样 , 遗 传 算 
法 的 研究 已 经 发 展 为 人 工 智 能 的 一 个 独立 分 支 ,其 代表 人 物 为 霍 勤 德 (J. H. Holland). 

(5) 连接 学 习 。 

典型 的 连接 模型 实现 为 人 工 神 经 网 络 , 其 由 称 为 神经 元 的 一 些 简单 计算 单元 及 单元 间 
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的 加 权 连 接 组 成 。 

(6) 增强 学 习 (Reinforcement Learning) 。 

增强 学 习 的 特点 是 通过 与 环境 的 试探 性 (Trial and Error) 交 互 来 确定 和 优化 动作 的 选 
择 ,以 实现 所 谓 的 序列 决策 任务 。 在 这 种 任务 中 ,学 习 机 制 通过 选择 并 执行 动作 ,导致 系统 
状态 的 变化 ,并 有 可 能 得 到 某 种 强化 信号 (立即 回报 ) ,从 而 实现 与 环境 的 交互 。 强 化 信号 就 
是 对 系统 行为 的 一 种 标量 化 的 奖惩 。 系 统 学 习 的 目标 是 寻找 一 个 合适 的 动作 选择 策略 , 即 
在 任 一 给 定 的 状态 下 选择 哪 种 动作 的 方法 ,使 产生 的 动作 序列 可 获得 某 种 最 优 的 结果 。 

在 综合 分 类 中 ,经 验 归纳 学 习 、 遗 传 算法 、 连 接 学 习 和 增强 学 习 均 属于 归纳 学 习 , 其 中 经 
验 归 纳 学 习 采 用 符号 表示 方式 ,而 遗传 算法 、 连 接 学 习 和 加 强 学 习 则 采用 亚 符 号 表示 方式 。 
分 析 学 习 属 于 演绎 学 习 。 

实际 上 ,类 比 策略 可 看 成 是 归纳 和 演绎 策略 的 综合 ,因而 最 基本 的 学 习 策 略 只 有 归纳 和 
演绎 。 

从 学 习 内 容 的 角度 看 ,采用 归纳 策略 的 学 习 由 于 是 对 输入 进行 归纳 ,所 学 习 的 知识 显然 
超过 原 有 系统 知识 库 所 能 蕴涵 的 范围 ,改变 了 系统 的 知识 演绎 ,因而 这 种 类 型 的 学 习 又 可 称 
为 知识 级 学 习 ; 而 采用 演绎 策略 的 学 习 尽 管 所 学 的 知识 能 提高 系统 的 效率 ,但 仍 能 被 原 有 系 
统 的 知识 库 所 蕴涵 , 即 所 学 的 知识 未 能 改变 系统 的 演绎 闭 包 ,因而 这 种 类 型 的 学 习 又 被 称 为 
符号 级 学 习 。 


6.1.2 机 器 学 习 发 展 历程 


1. 发 展 时 期 

机 器 学 习 是 人 工 智 能 研究 较为 年 轻 的 分 支 , 它 的 发 展 过 程 大 体 上 分 为 4 个 时 期 。 

(1) 20 世纪 50 年 代 中 叶 到 60 年 代 中 叶 , 属 于 热烈 时 期 。 在 这 个 时 期 所 研究 的 是 “没有 
知识 ”的 学 习 , 即 “无 知 ” 学 习 。 其 研究 目标 是 各 类 自 组 织 系 统 和 自 适应 系统 ,主要 研究 方法 
是 不 断 修改 系统 的 控制 参数 和 改进 系统 的 执行 能 力 , 不 涉及 与 具体 任务 有 关 的 知识 。 本 阶 
段 的 代表 性 工作 是 塞 缪 尔 (Samuel) 的 下 棋 程 序 。 但 这 种 学 习 的 结果 远 不 能 满足 人 们 对 机 
器 学 习 系统 的 期 望 。 

(2) 20 世纪 60 年 代 中 叶 到 70 年 代 中 叶 , 被 称 为 机 器 学 习 的 冷静 时 期 。 本 阶段 的 研究 
目标 是 模拟 人 类 的 概念 学 习 过 程 , 并 采用 逻辑 结构 或 图 结构 作为 机 器 内 部 描述 。 本 阶段 的 
代表 性 工作 有 温 斯 顿 (Winston) 的 结构 学 习 系统 和 海 斯 罗 思 (Hayes-Roth) 等 的 基本 逻辑 的 
归纳 学 习 系 统 。 

(3) 20 世纪 70 年 代 中 叶 到 80 年 代 中 叶 , 称 为 复兴 时 期 。 在 此 期 间 , 人 们 从 学 习 单 个 概 
念 扩 展 到 学 习 多 个 概念 ,探索 不 同 的 学 习 策 略 和 方法 , 且 在 本 阶段 已 开始 把 学 习 系 统 与 各 种 
应 用 结合 起 来 ,并 取得 很 大 的 成 功 ,促进 机 器 学 习 的 发 展 。1980 年 ,在 美国 的 卡 内 基 - 梅 隆 
CCMU) 召 开 了 第 一 届 机 器 学 习 国际 研讨 会 .标志 着 机 器 学 习 研 究 已 在 全 世界 兴起 。 

2. 主要 研究 方向 

当前 机 器 学 习 围 绕 三 个 主要 研究 方向 进行 : 

(1) 面向 任务 。 在 预定 的 一 些 任务 中 ,分 析 和 开发 学 习 系 统 , 以便 改善 完成 任务 的 水 
EF, 这 是 专家 系统 研究 中 提出 的 研究 问题 。 
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(2) 认识 模拟 。 主 要 研究 人 类 学 习 过 程 及 其 计算 机 的 行为 模拟 ,这 是 从 心理 学 角度 研 
究 的 问题 。 

(3) 理论 分 析 研 究 。 从 理论 上 探讨 各 种 可 能 的 学 习 方法 的 空间 和 独立 于 应 用 领域 之 外 
的 各 种 算法 。 

机 器 学 习 是 继 专家 系统 之 后 人 工 智 能 应 用 的 又 一 个 重要 的 研究 领域 ,也 是 人 工 智 能 和 
神经 计算 的 核心 研究 课题 之 一 。 现 有 的 计算 机 系统 和 人 工 智 能 系统 没有 什么 学 习 能 力 ,至 
多 也 只 有 非常 有 限 的 学 习 能 力 ,因而 不 能 满足 科技 和 生产 提出 的 新 要 求 。 对 机 器 学 习 的 讨 
论 和 机 器 学 习 研 究 的 进展 必 将 促使 人 工 智能 和 整个 科学 技术 的 进一步 发 展 。 


6.2 机 器 学 习 常 用 的 算法 


可 以 把 算法 分 类 ,比如 说 基于 树 的 算法 、 基 于 神经 网 络 的 算法 等 。 当 然 , 机 器 学 习 的 范 
围 非常 庞大 ,有 些 算法 很 难 明确 归 类 到 某 一 类 。 而 对 于 有 些 分 类 来 说 ,同一 分 类 的 算法 可 以 
针对 不 同类 型 的 问题 。 这 里 尽量 把 常用 的 算法 按照 最 容易 理解 的 方式 进行 分 类 。 


6.2.1 回归 算法 


回归 算法 是 试图 采用 对 误差 的 衡量 来 探索 变量 之 间 的 关系 的 一 类 算法 ,如 图 6-1 所 示 。 
回归 算法 是 统计 机 器 学 习 的 利器 。 在 机 器 学 习 领 域 ,人 们 说 起 回归 ,有 时 候 是 指 一 类 问题 ， 
有 时 候 是 指 一 类 算法 ,这 一 点 常常 会 使 初学 者 有 所 困惑 。 常 见 的 回归 算法 包括 最 小 二 乘法 
(Ordinary Least Square), 逻辑 回归 (Logistic Regression), 逐步 式 回归 (Stepwise 
Regression) ,多 元 自 适应 回归 样 条 (Moultivariate Adaptive Regression Splines) 及 本 地 散 点 
平滑 估计 (Locally Estimated Scatterplot Smoothing) 。 


6.2.2 基于 实例 的 算法 


基于 实例 的 算法 常常 用 来 对 决策 问题 建立 模型 ,这 样 的 模型 常常 先 选取 一 批 样本 数据 ， 
然后 根据 某 些 近似 性 把 新 数据 与 样本 数据 进行 比较 ,如 图 6-2 所 示 。 通 过 这 种 方式 来 寻找 
最 佳 的 匹配 。 因 此 ,基于 实例 的 算法 常常 也 被 称 为 “赢家 通 吃 学 习 ” 或 者 "基于 记忆 的 学 习 ”。 
常见 的 算法 包括 k-Nearest Neighbor(KNN)、 学 习 矢 量 量化 (Learning Vector Quantization, 
LVQ) 及 自 组 织 映射 算法 (Self-Organizing Map.SOM). 
































图 6-2 基于 实例 算法 


大 数据 云 服务 技术 架构 与 实践 





6.2.3 正则 化 方法 


正则 化 方法 是 其 他 算法 (通常 是 回归 算法 ) 的 延伸 ,根据 算法 的 复杂 度 对 算法 进行 调整 。 
正则 化 方法 通常 对 简单 模型 予以 奖励 ,而 对 复杂 算法 予以 惩罚 ,如 图 6-3 所 示 。 常 见 的 算法 
包括 Ridge Regression, Least Absolute Shrinkage 和 Selection Operator( LASSO) , 以 及 弹 
性 网 络 (Elastic Net) 。 








fo, 2 0° 








2 4 6 8 10 12 14 16 18 20 
图 6-3 正则 化 方法 
6.2.4 决策 树 算 法 


决策 树 算 法 根据 数据 的 属性 采用 树 状 结构 建立 决策 模型 ,决策 树 模型 常用 来 解决 分 类 
和 回归 问题 ,如 图 6-4 所 示 。 常 见 的 算法 包括 分 类 及 回归 树 (Classification And Regression 
Tree,CART) ID3 (Iterative Dichotomiser 3),C4.5,Chi-squared Automatic Interaction 
Detection(CHAID) , Decision Stump, pë HL # $k (Random Forest)、 多 元 自 适应 回归 样 条 
(MARS) K Hh RE FE BE BL (Gradient Boosting Machine, GBM) 。 
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图 6-4 决策 树 算法 


6.2.5 贝 叶 斯 方法 


贝 叶 斯 算法 是 基于 贝 叶 斯 定理 的 一 类 算法 ,主要 用 来 解决 分 类 和 回归 问题 .如 图 6-5 所 
示 。 常 见 的 算法 包括 朴素 贝 叶 斯 算法 .平均 单 依赖 估计 (Averaged One-Dependence 
Estimators. AODE) 及 Bayesian Belief Network(BBN) 。 
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6.2.6 基于 核 的 算法 


基于 核 的 算法 中 最 著名 的 莫 过 于 支持 向 量 机 (SVM) 了。 基于 核 的 算法 把 输入 数据 映 
射 到 一 个 高 阶 的 向 量 空间 ,在 这 些 高 阶 向 量 空间 里 ,有 些 分 类 或 者 回归 问题 能 够 更 容易 地 解 
决 ,如 图 6-6 所 示 。 常 见 的 基于 核 的 算法 包括 支持 向 量 机 (Support Vector Machine, SVM) , 
1% (ny Jk PA AEC Radial Basis Function, RBF) 及 线性 判别 分 析 (Linear Discriminate Analysis, 
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图 6-5 贝 叶 斯 算法 图 6-6 基于 核算 法 


6.2.7 KARA 


聚 类 ,就 像 回归 一 样 , 有 时 候 人 们 描述 的 是 一 类 问题 ,有 时 候 描述 的 是 一 类 算法 。 聚 类 
算法 通常 按照 中 心 点 或 者 分 层 的 方式 对 输入 数据 进行 归并 ,如 图 6-7 所 示 。 所 有 的 聚 类 算 
法 都 试图 找到 数据 的 内 在 结构 ,以 便 按照 最 大 的 共同 点 将 数据 进行 归 类 。 常 见 的 聚 类 算法 
包括 k-Means 算法 及 期 望 最 大 化 算法 (Expectation Maximization, EM) 。 
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6.2.8 关联 规则 学 习 
关联 规则 学 习 通过 寻找 最 能 够 解释 数据 变量 之 间 关 系 的 规则 来 找 出 大 量 多 元 数据 集中 
有 用 的 关联 规则 ,如 图 6-8 所 示 。 常 见 算法 包括 Apriori 算法 和 Eclat 算法 等 。 
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图 6-8 关联 规则 学 习 


6.2.9 遗传 算法 


遗传 算法 模拟 生物 繁殖 的 突变 、 交 换 和 达尔 文 的 自然 选择 (在 每 一 个 生态 环境 中 适 者 生 
存 )。 它 把 问题 可 能 的 解 编码 为 一 个 向 量 , 称 为 个 体 , 向 量 的 每 一 个 元 素 称 为 基因 ,并 利用 目 
标 函 数 ( 相 应 于 自然 选择 标准 ) 对 群体 (个 体 的 集合 ) 中 的 每 一 个 个 体 进行 评价 ,根据 评价 值 ( 适 
应 度 ) 对 个 体 进行 选择 ,交换 .变异 等 遗传 操作 ,从 而 得 到 新 的 群体 。 遗 传 算法 适用 于 非常 复杂 
和 困难 的 环境 ,比如 带 有 大 量 噪 声 和 无 关 数 据 、 事 物 不 断 更 新 、 问 题目 标 不 能 明显 和 精确 地 定 
义 , 以 及 通过 很 长 的 执行 过 程 才能 确定 当前 行为 的 价值 等 ,如 图 6-9 所 示 。 同 神经 网 络 一 样 ， 
遗传 算法 的 研究 已 经 发 展 为 人 工 智能 的 一 个 独立 分 支 ,其 代表 人 物 为 霍 勒 德 (J. H. Holland), 
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图 6-9 遗传 算法 
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6.2.10 人 工 神经 网 络 


人 工 神经 网 络 算法 模拟 生物 神经 网 络 ,是 一 类 模式 匹配 算法 ,通常 用 于 解决 分 类 和 回归 
问题 。 人 工 神经 网 络 是 机 器 学 习 的 一 个 庞大 分 支 ,有 几 百 种 不 同 的 算法 (深度 学 习 就 是 其 中 
的 一 类 算法 ,后面 会 单独 讨论 )。 重 要 的 人 工 神经 网 络 算法 包括 感知 器 神经 网 络 
(Perceptron Neural Network)、 反 向 传递 (Back Propagation) , Hopfield 网 络 、 自 组 织 映射 
(Self-Organizing Map, SOM) ,如 图 6-10 所 示 。 


6.2.11 深度 学 习 














深度 学 习 算 法 是 对 人 工 神 经 网 络 的 发 展 。 在 近期 赢得 了 很 多 关注 ,特别 是 百度 公司 也 
开始 开展 “深度 学 习 ” 研 究 后 ,更 是 在 国内 引起 了 很 多 关注 。 在 计算 能 力 变 得 日 益 廉价 的 今 
天 ,深度 学 习 试 图 建立 大 得 多 也 复杂 得 多 的 神经 网 络 。 很 多 深度 学 习 的 算法 是 半 监 督 式 学 
习 算 法 ,用 来 处 理 存 在 少量 未 标识 数据 的 大 数据 集 ,如 图 6-11 所 示 。 常 见 的 深度 学 习 算法 
包括 受 限 波 尔 兹 曼 机 (Restricted Boltzmann Machine. RBN), Deep Belief Networks 
(DBN) 、 卷 积 网 络 (Convolutional Network) ,堆栈 式 自动 编码 器 (Stacked Auto-encoders)。 
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图 6-10 ”人工 神经 网 络 图 6-11 深度 学 习 


6.2.12 降低 维度 算法 


像 聚 类 算法 一 样 ,降低 维度 算法 试图 分 析 数 据 的 内 
在 结构 ,不 过 降低 维度 算法 是 以 非 监督 学 习 的 方式 试图 
利用 较 少 的 信息 来 归纳 或 者 解释 数据 ,如 图 6-12 所 示 。 
这 类 算法 可 以 用 于 高 维 数据 的 可 视 化 .或 者 用 来 简化 数 
据 以 便 监督 式 学 习 使 用 。 常 见 的 算法 包括 主 成 分 分 析 
(Principle Component Analysis .PCA), 偏 最 小 二 乘 回归 
(Partial Least Square Regression. PLS) , Sammon 映射 、 
多 维 尺度 (Multi-Dimensional Scaling. MDS) ,投影 追踪 
(Projection Pursuit) 等 。 图 6-12 降低 维度 
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6.2.13 集成 算法 


集成 算法 用 一 些 相对 较 弱 的 学 习 模 型 独立 地 就 同样 的 样本 进行 训练 ,然后 把 结果 整合 
起 来 进行 整体 预测 。 集 成 算法 的 主要 难点 在 于 究 竞 集成 哪些 独立 的 、 较 弱 的 学 习 模 型 及 如 
何 把 学 习 结果 整合 起 来 ,如 图 6-13 所 示 。 这 是 一 类 非常 强大 的 算法 ,同时 也 非常 流行 。 常 
见 的 算法 包括 Boosting, Bootstrapped Aggregation ( Bagging ), AdaBoost, H # i 1h 
(Stacked Generalization. Blending) ,梯度 推进 机 (Gradient Boosting Machine. GBM) 、 随 机 
森林 (Random Forest) ,GBDT (Gradient Boosting Decision Tree) 。 


|e Classifier => 


— Classifier > (=) 
=} Classifier => 


图 6-13 集成 算法 



























































6.3 ”本章 小 结 


本 章 介绍 了 机 器 学 习 的 概念 分 类 和 发 展 历程 ,简要 介绍 了 多 种 机 器 学 习 算法 。 机 器 学 
习 使 用 计算 机 模拟 人 类 的 学 习 活动 ,是 研究 计算 机 识别 现 有 知识 、 获 取 新 知识 、 不 断 改 善 性 
能 和 实现 自身 完善 的 方法 ,是 大 数据 的 关键 技术 。 
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虚拟 化 技术 实现 了 物理 资源 的 逻辑 抽象 表示 ,可 以 提高 资源 的 利用 率 ,并 能 够 根据 用 户 
业务 需求 的 变化 ,快速 灵活 地 进行 资源 部 署 。 虚 拟 化 是 实现 云 计算 最 重要 的 技术 基础 。 


7.1 虚拟 化 概述 


虚拟 相对 于 真实 ,虚拟 化 就 是 将 原本 运行 在 真实 环境 上 的 计算 机 系统 或 组 件 运 行 在 虚 
拟 出 来 的 环境 中 。 一 般 来 说 ,计算 机 系统 分 为 若干 层次 ,从 下 至 上 包括 底层 硬件 资源 、 操 作 
系统 提供 的 应 用 程序 编程 接口 ,以 及 运行 在 操作 系统 之 上 的 应 用 程序 。 虚 拟 化 技术 在 这 些 
不 同 层次 之 间 构 建 虚拟 化 层 ,向 上 提供 与 真实 层次 相同 或 类 似 的 功能 ,使 得 上 层 系 统 可 以 运 
行 在 该 中 间 层 之 上 。 这 个 中 间 层 解除 其 上 下 两 层 间 的 耦合 关系 ,使 上 层 的 运行 不 依赖 于 下 
层 的 具体 实现 。 


7.1.1 虚拟 化 发 展 历 史 


虚拟 化 技术 近年 来 得 到 大 面积 推广 应 用 ,虚拟 化 概念 的 提出 远 远 早 于 云 计算 ,从 其 诞生 
的 时 间 看 , 它 的 历史 源远流长 ,大 体 可 分 为 如 下 几 个 阶段 : 

1. 萌芽 期 (20 世纪 六 七 十 年 代 ) 

虚拟 化 的 首次 提出 是 在 1959 年 6 月 国际 信息 处 理 大 会 (International Conference on 
Information Processing) 上 .计算 机 科学 家 Christopher Strachey 发 表 的 论文 (大 型 高 速 计 算 
机 中 的 时 间 共 享 》)(Time Sharing in Large Fast Computers) 中 首次 提出 并 论述 了 虚拟 化 
技术 。 

20 世纪 60 年 代 开 始 ,IBM 公司 的 操作 系统 虚拟 化 技术 使 计算 机 资源 得 到 充分 利用 。 
随后 ,IBM 公司 及 其 他 几 家 公司 陆续 开发 了 如 下 产品 : Model 67 的 System/360 主机 能 够 




















100 


大 数据 云 服务 技术 架构 与 实践 








虚拟 硬件 接口 ,M44/44X 计算 机 项 目 定 义 了 虚拟 内 存 管 理 机 制 ,IBM 360/40、IBM 360/67、 
VM/370 虚拟 计算 系统 都 具备 虚拟 机 功能 。 

在 这 个 阶段 ,虚拟 计算 技术 可 以 充分 利用 相对 昂贵 的 硬件 资源 。 然 而 随 着 技术 进步 , 计 
算 机 硬件 越 来 越 便宜 ,当初 的 虚拟 化 技术 只 在 高 档 服 务 器 如 小 型 机 中 存在 。 

2. x86 虚拟 化 蓬勃 发 展 (20 世纪 90 ERES) 

20 世纪 90 ER, VMware 等 软件 厂商 率先 实现 了 x86 服务 器 架构 上 的 虚拟 化 ,从 而 开 
拓 了 虚拟 化 应 用 的 市 场 。 最 开始 的 x86 虚拟 化 技术 是 纯 软 件 模式 的 “完全 虚拟 化 ,一般 需 
要 二 进 制 转换 来 进行 虚拟 化 操作 ,但 虚拟 机 的 性 能 打 了 折扣 。 因 此 ,在 Denail 和 Xen 等 项 
目 中 出 现 了 “类 虚拟 化 ”, 对 操作 系统 进行 代码 级 修改 ,但 又 会 带 来 隔离 性 等 问题 。 随 后 , 虚 
拟 化 技术 发 展 到 硬件 支持 阶段 ,在 硬件 级 别 上 实现 软件 功能 ,从 而 大 大 减少 了 性 能 开销 , 典 
型 的 硬件 辅助 虚拟 化 技术 包括 Intel 的 VT 技术 和 AMD 的 SVM 技术 。 

3. 服务 器 虚拟 化 的 广泛 应 用 ,带动 虚拟 化 技术 的 发 展 壮大 

x86 服务 器 虚拟 化 技术 的 发 展 给 IT 行业 带 来 了 低 成 本 、 高 效率 ,虚拟 化 技术 体系 不 断 
发 展 壮 大 ,相继 出 现 了 桌面 虚拟 化 ,应 用 虚拟 化 、 网 络 虚拟 化 、 存 储 虚拟 化 等 多 个 成 员 。 这 些 
虚拟 化 给 用 户 多 样 的 应 用 和 选择 ,进而 推动 了 虚拟 化 技术 的 广泛 应 用 。 


7.1.2 虚拟 化 技术 的 发 展 热点 和 趋势 


纵 观 虚拟 化 技术 的 发 展 历史 ,可 以 看 到 它 始 终 如 一 的 目标 就 是 实现 对 IT 资源 的 充分 
利用 。 因 为 随 着 企业 的 发 展 , 业 务 和 应 用 不 断 扩张 ,基于 传统 的 IT 建设 方式 导致 IT 系统 
规模 日 益 庞大 ,数据 中 心 空间 不 够 用 、 高 耗 能 ,维护 成 本 不 断 增加 ; 而 现 有 服务 器 ,存储 系统 
等 设备 又 没有 被 充分 利用 起 来 ; 新 的 需求 又 得 不 到 及 时 的 响应 ,IT 基础 架构 对 业务 需求 反 
应 不 灵活 ,不 能 有 效 地 调配 系统 资源 适应 业务 需求 。 因 此 企业 需要 建立 一 种 可 以 降低 成 本 、 
有 具有 智能 化 和 安全 特性 并 能 够 及 时 适应 企业 业务 需求 的 灵活 的 ,动态 的 基础 设施 和 应 用 环 
境 , 虚 拟 化 技术 的 发 展 热点 和 趋势 不 难 预料 。 

1. 整体 来 看 

目前 通过 服务 器 虚拟 化 实现 资源 整合 是 虚拟 化 技术 得 到 应 用 的 主要 驱动 力 。 现 阶段 ， 
服务 器 虚拟 化 的 部 署 远 比 桌 面 或 者 存储 虚拟 化 等 多 。 但 从 整体 来 看 ,桌面 和 应 用 虚拟 化 在 
虚拟 化 技术 的 下 一 步 发 展 中 处 于 优先 地 位 , 仅 次 于 服务 器 虚拟 化 。 未 来 ,桌面 平台 虚拟 化 将 
得 到 大 量 部 署 。 

2. 对 于 服务 器 虚拟 化 技术 本 身 而 言 

随 着 硬件 辅助 虚拟 化 技术 的 日 趋 成 熟 ,各 厂商 对 自身 软件 虚拟 化 产品 的 持续 优化 ,不 同 
的 服务 器 虚拟 化 技术 在 性 能 差异 日 益 减 小 。 未 来 ,虚拟 化 技术 的 热点 将 主要 集中 在 安全 、 存 
储 、 管 理 等 方面 。 

3. 就 当前 来 看 

目前 ,虚拟 化 技术 的 应 用 在 虚拟 化 的 性 能 、 虚 拟 化 环境 的 部 署 、 虚 拟 机 的 零 宕 机 、 虚 拟 机 
长 距离 迁移 、 虚 拟 机 软件 与 存储 等 设备 的 兼容 性 等 方面 ,实现 突破 。 
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7.1.3 虚拟 化 技术 的 概念 


虚拟 化 技术 是 一 种 调配 计算 资源 的 方法 , 它 将 应 用 系统 的 不 同 层面 硬件、 软件、 数据、 
网 络 存储 等 ) 隔 离 起 来 ,从 而 打破 服务 器 存储、 网 络 数据 和 应 用 的 物理 设备 之 间 的 划分 , 实 
现 架 构 动态 化 ,并 达到 集中 管理 和 动态 使 用 物理 资源 及 虚拟 资源 ,以 提高 系统 结构 的 弹性 和 
灵活 性 ,降低 成 本 、 改 进 服务 、 减 少 管理 风险 等 目标 。 可 见 ,虚拟 化 是 一 个 广泛 而 变化 的 概 
念 ,因此 想 要 给 出 一 个 清晰 而 准确 的 定义 并 不 是 一 件 容易 的 事情 。 目 前 业界 对 虚拟 化 已 经 
产生 如 下 多 种 定义 。 

虚拟 化 是 表示 计算 机 资源 的 抽象 方法 ,通过 虚拟 化 可 以 用 与 访问 抽象 方法 一 样 的 方法 
访问 抽象 后 的 资源 。 这 种 资源 的 抽象 方法 并 不 受 实现 地理 位 置 或 底层 置 的 限制 。 

一 一 WiKipedia ,维基 百科 

虚拟 化 是 为 某 些 事物 创造 的 虚拟 (相对 于 真实 ) 版 本 ,比如 操作 系统 .存储 设备 和 网 络 资 

源 等 。 





一 一 Whatls. com, 信息 技术 术语 库 
虚拟 化 是 为 一 组 类 似 资源 提供 一 个 通用 的 抽象 接口 集 ,从 而 隐藏 它们 之 间 的 差异 ,并 人 允 
许 通 过 一 种 通用 的 方式 来 查看 并 维护 资源 。 
—— Open Grid Services Architecture 
从 上 面 的 定义 可 以 看 出 ,虚拟 化 包含 了 如 下 三 层 含义 ， 
(1) 虚拟 化 的 对 象 是 各 种 各 样 的 资源 。 
(2) 经 过 虚拟 化 后 的 逻辑 资源 对 用 户 隐 藏 了 不 必要 的 细节 。 
(3) 用 户 可 以 在 虚拟 环境 中 实现 其 在 真实 环境 中 的 部 分 或 者 全 部 功能 。 
虚拟 化 的 对 象 涵盖 很 广 的 范围 ,可 以 是 各 种 硬件 资源 ,如 CPU、 内 存 、 存 储 、 网 络 ; 也 可 
以 是 各 种 软件 环境 ,如 操作 系统 ,文件 系统 ,应 用 程序 等 ,如 图 7-1 所 示 。 可 以 举 一 个 简单 的 
例子 ,来 更 好 地 理解 操作 系统 中 的 内 存 实现 虚拟 化 ,内 存 和 硬盘 两 者 具有 相同 的 逻辑 表示 。 
通过 虚拟 化 向 上 层 隐 藏 了 如 何在 硬盘 上 进行 内 存 交 换 、 文 件 读 写 , 如 何在 内 存 与 硬盘 间 实 现 
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统一 寻 址 和 换 入 换 出 等 细节 。 对 于 使 用 虚拟 内 存 的 应 用 程序 来 说 ,它们 仍然 可 以 用 一 致 的 
分 配 、 访 问 和 释放 的 指令 对 虚拟 内 存 进行 操作 ,就 如 同 在 访问 真实 存在 的 物理 内 存 一 样 。 

虚拟 化 简化 了 表示 访问 和 管理 多 种 IT 资源 ,包括 基础 设施 .系统 和 软件 等 ,并 为 这 些 
资源 提供 标准 的 接口 来 接收 输入 和 提供 输出 。 虚 拟 化 的 使 用 者 可 以 是 最 终 用 户 、 应 用 程序 
或 者 是 服务 。 通 过 标准 接口 ,虚拟 化 可 以 在 IT 基础 设施 发 生变 化 时 ,减少 对 使 用 者 的 影 
响 。 由 于 与 虚拟 资源 进行 交互 的 方式 没有 变化 ,即使 底层 资源 的 实现 方式 已 经 发 生 了 改变 ， 
最 终 用 户 可 以 重用 原 有 的 接口 。 

虚拟 化 降低 了 资源 使 用 者 与 资源 具体 实现 之 间 的 耦合 程度 ,让 使 用 者 不 再 依赖 于 某 种 
资源 的 实现 , 极 大 地 方便 了 系统 管理 员 对 IT 资源 的 维护 与 升级 。 


7.2 虚拟 化 的 分 类 














虚拟 化 技术 已 经 成 为 一 个 庞大 的 技术 家 族 ,形式 多 种 多 样 ,实现 的 应 用 也 形成 体系 。 但 
对 其 分 类 ,从 不 同 的 角度 有 不 同 的 分 法 。 从 实现 的 层次 可 以 分 为 基础 设施 化 、 系 统 虚拟 化 、 
软件 虚拟 化 ,从 应 用 的 领域 可 以 划分 为 服务 器 虚拟 化 、 存 储 虚 拟 化 、 应 用 虚拟 化 ,平台 虚拟 
化 、 桌 面 虚拟 化 。 


7.2.1 从 实现 的 层次 划分 


虚拟 化 技术 虚拟 对 象 是 IT 资源 ,按照 这 些 资源 所 处 的 层次 可 以 划分 出 不 同类 型 的 虚 
拟 化 : 基础 设施 化 .系统 虚拟 化 软件 虚拟 化 。 目 前 ,大 家 接触 最 多 的 就 是 系统 虚拟 化 ,例如 
VMware Workstation 在 个 人 计算 机 上 虚拟 出 一 个 逻辑 系统 ,用 户 可 以 在 这 个 虚拟 系统 上 
安装 和 使 用 另 一 个 操作 系统 及 其 上 的 应 用 程序 ,就 如 同 在 使 用 一 台独 立 计 算 机 。 这 样 的 虚 
拟 系 统称 作 “ 虚 拟 机 ”, 像 这 样 的 VMware Workstation 软件 是 虚拟 化 套件 ,负责 虚拟 机 的 创建 、 
运行 和 管理 。 这 仅仅 是 虚拟 化 技术 的 一 部 分 ,下 面 从 层次 上 向 读者 介绍 几 种 虚拟 化 技术 。 

1. 基础 设施 虚拟 化 

网 络 .存储 和 文件 系统 同 为 支撑 信息 系统 运行 的 重要 基础 设施 ,因此 根据 IBM* 虚 拟 化 
和 云 计 算 ” 小 组 的 观点 ,将 相关 硬件 (CPU 内存 .硬盘 . 声 卡 . 显 卡 `. 光 驱 ) 虚 拟 化 .网络 虚 拟 
化 .存储 虚拟 化 .文件 虚拟 化 归 类 为 基础 设施 虚拟 化 。 

硬件 虚拟 化 是 用 软件 虚拟 一 台 标 准 计算 机 硬件 配置 ,如 CPU 内存、 硬盘 声卡 .显卡 、 光 
驱 等 ,成 为 一 台 虚 拟 裸 机 ,可 以 在 其 上 安装 系统 ,代表 产品 有 VMware, Virtual PC, Virtual Box, 

网 络 虚拟 化 将 网 络 的 硬件 和 软件 资源 整合 ,向 用 户 提供 网 络 连接 的 虚拟 化 技术 。 网 络 
虚拟 化 可 以 分 为 局 域 网 络 虚 拟 化 和 广域网 络 虚 拟 化 。 在 局 域 网 络 虚 拟 化 技术 中 ,多 个 本 地 
网 络 被 组 合成 为 一 个 逻辑 网 络 ,或 者 一 个 本 地 网 络 被 分 割 为 多 个 逻辑 网 络 ,提高 企业 局 域 网 
或 者 内 部 网 络 的 使 用 效率 和 安全 性 ,典型 代表 是 虚拟 局 域 网 (Virtual LAN, VLAN), J dh 
网 络 虚拟 化 技术 中 ,应 用 最 广泛 的 是 虚拟 专 网 (Virtual Private Network,VPN)。 虚 拟 专 网 
抽象 网 络 连接 ,使 得 远程 用 户 可 以 安全 地 访问 内 部 网 络 , 并 且 感 觉 不 到 物理 连接 的 和 虚拟 连 
接 的 差异 。 

存储 虚拟 化 是 为 物理 的 存储 设备 提供 统一 的 逻辑 接口 ,用 户 可 以 通过 统一 逻辑 接口 来 
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访问 被 整合 的 存储 资源 。 存 储 虚 拟 化 主要 有 基于 存储 设备 的 虚拟 化 和 基于 网 络 的 存储 虚拟 
化 两 种 主要 形式 。 基 于 存储 设备 的 虚拟 化 ,主要 有 磁盘 阵列 技术 (Redundant Array Disks, 
RAID) ,基于 存储 设备 的 存储 虚拟 化 的 典型 代表 ,通过 将 多 块 物理 磁盘 组 成 为 磁盘 阵列 , 实 
现 了 一 个 统一 的 、 高 性 能 的 容错 存储 空间 ; 存储 区 域 网 (Storage Area Network SAN) 和 网 
络 存储 (Network Attached Storage, NAS) ,基于 网 络 的 存储 虚拟 化 技术 的 典型 代表 。SAN 
是 计算 机 信息 处 理 技 术 中 的 一 种 架构 , 它 将 服务 器 和 远程 的 计算 机 存储 设备 (如 磁盘 阵列 、 
磁带 库 ) 连 接 起 来 ,使 得 这 些 存储 设备 看 起 来 就 像 是 本 地 一 样 。 和 SAN 相反 ,NAS 使 用 基 
于 文件 (File-Based) 的 协议 ,如 NFS、SMB/CIFS 等 ,在 这 里 仍然 是 远程 存储 ,但 计算 机 请 求 
的 是 抽象 文件 中 的 一 部 分 ,而 不 是 一 个 磁盘 块 。 

文件 虚拟 化 是 指 把 物理 上 分 散 存储 的 众多 文件 整合 为 一 个 统一 的 逻辑 接口 ,方便 用 户 
访问 ,提高 文件 管理 效率 。 用 户 通过 网 络 访问 数据 不 需要 知道 真实 的 物理 位 置 ,还 能 够 在 一 
个 控制 台 管理 分 散在 不 同位 置 存储 于 异 构 设 备 的 数据 。 

2. 系统 虚拟 化 

目前 对 于 大 多 数 熟 悉 或 从 事 IT 工作 的 人 来 说 ,系统 虚拟 化 是 最 广泛 接受 和 认识 的 一 
种 虚拟 化 技术 。 系 统 虚 拟 化 实现 了 操作 系统 和 物理 计算 机 的 分 离 , 使 得 在 一 台 物 理 计算 机 
上 可 以 同时 安装 和 运行 一 个 或 多 个 虚拟 操作 系统 。 与 使 用 直接 安装 在 物理 计算 机 上 的 操作 
系统 相 比 ,用 户 不 能 感觉 出 显著 差异 。 

系统 虚拟 化 使 用 虚拟 化 软件 在 一 台 物 理 机 上 虚拟 出 一 台 或 多 台 虚 拟 机 (Machine， 
VM) 。 虚 拟 机 是 指使 用 系统 虚拟 化 技术 ,运行 在 一 个 隔离 环境 中 ,具有 完整 的 硬件 功能 的 
逻辑 计算 机 系统 。 在 系统 虚拟 化 环境 中 ,多 个 操作 系统 可 以 在 同一 台 物 理 机 上 同时 运行 , 复 
用 物理 机 资源 , 互 不 影响 ,如 图 7-2 所 示 。 虚 拟 运 行 环境 都 需要 为 在 其 上 运行 的 虚拟 机 提供 
一 套 虚 拟 的 硬件 环境 ,包括 虚拟 的 处 理 器 ,内存 、 设 备 与 10 及 网 络 接口 等 。 同 时 ,虚拟 运 
行 环境 也 为 这 些 操作 系统 提供 了 硬件 共享 .统一 管理 .系统 隔离 等 诸多 特性 。 








图 7-2 系统 虚拟 化 


系统 虚拟 化 技术 在 日 常 应 用 的 个 人 计算 机 中 具有 丰富 的 应 用 场景 。 例 如 ,一 个 用 户 使 
用 的 是 Windows 系统 的 个 人 计算 机 ,但 需要 使 用 一 个 只 能 在 Linux 下 运行 的 应 用 程序 ,可 
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以 在 个 人 计算 机 上 虚拟 出 一 个 虚拟 机 安装 Linux 操作 系统 ,这 样 就 可 以 使 用 他 所 需要 的 应 
用 程序 了 。 

系统 虚拟 化 更 大 的 价值 在 于 服务 器 虚拟 化 。 目 前 ,大 量 应 用 x86 的 服务 器 完成 各 种 网 
络 应 用 。 大 型 的 数据 中 心 往往 托管 了 数 以 万 计 的 x86 服务 器 。 出 于 安全 性 和 可 靠 性 的 考 
虑 ,通常 每 个 服务 器 基本 只 运行 着 一 个 应 用 服务 ,导致 了 服务 器 利用 率 低下 ,大 量 的 计算 资 
源 被 浪费 。 如 果 在 同一 台 物 理 服 务 器 上 虚拟 出 多 个 虚拟 服务 器 ,每 个 虚拟 服务 器 运行 不 同 
的 服务 ,这 样 便 可 提高 服务 器 的 利用 率 , 减 少 机 器 数量 ,降低 运营 成 本 、 存 储 空间 及 能 耗 , 从 
而 达到 既 经 济 又 环保 的 目的 。 

除了 在 个 人 计算 机 和 服务 器 上 采用 系统 虚拟 化 以 外 ,桌面 虚拟 化 解除 了 个 人 计算 机 桌 
面 环 境 ( 包 括 应 用 程序 和 文件 等 ) 与 物理 机 之 问 的 耦合 关系 ,达到 在 同一 个 终端 环境 运行 多 
个 不 同系 统 的 目的 。 经 过 虚拟 化 后 的 桌面 环境 被 保存 在 远程 的 服务 器 上 , 当 用 户 在 桌面 上 
工作 时 ,所 有 的 程序 与 数据 都 运行 在 这 个 远程 的 服务 器 上 ,用 户 可 使 用 具有 足够 显示 能 力 的 
兼容 设备 来 访问 桌面 环境 ,如 个 人 计算 机 、 手 机 智能 终端 。 

3. 软件 虚拟 化 


除了 基础 设施 虚拟 化 和 系统 虚拟 化 外 ,还 有 另 一 种 针对 软件 平台 的 虚拟 化 技术 ,用 户 使 
用 的 应 用 程序 和 编程 语言 都 存在 相对 应 的 虚拟 化 概念 。 这 类 虚拟 化 技术 就 是 软件 虚拟 化 ， 
主要 包括 应 用 虚拟 化 和 高 级 语言 虚拟 化 。 

应 用 虚拟 化 将 应 用 程序 与 操作 系统 解 耦 合 ,为 应 用 程序 提供 了 一 个 虚拟 的 运行 环境 。 
这 个 环境 不 仅 包 括 应 用 程序 的 可 执行 文件 ,还 包括 运行 需要 的 环境 。 应 用 虚拟 化 服务 器 可 
以 实时 地 将 用 户 所 需 的 程序 组 件 推送 到 客户 端的 应 用 虚拟 化 运行 环境 。 当 用 户 完 成 操作 关 
闭 应 用 程序 后 ,所 做 的 更 改 被 上 传 到 服务 器 集中 管理 。 这 样 , 用 户 将 不 再 局 限于 单一 的 客户 
端 , 可 以 在 不 同 终端 使 用 自己 的 应 用 。 

应 用 虚拟 化 领域 目前 有 多 种 国内 外 产品 ,下 面 简单 介绍 几 个 有 代表 性 的 。 

(1) Microsoft Application Virtualization(App-V)。 前 身 是 Softgrid, 被 微软 公司 收购 ， 
主要 针对 企业 内 部 的 软件 分 发 ,方便 了 企业 桌面 的 统一 配置 和 管理 ,支持 同时 使 用 同一 程序 
的 不 同 版 本 ,在 客户 端 第 一 次 运行 程序 时 可 以 实现 边 用 边 下 载 等 。 但 是 对 Windows 外 壳 扩 
展 程序 的 支持 不 够 好 ,并 且 安 装 实施 非常 复杂 ,不 是 专业 的 管理 员 很 难 部 署 起 来 。 

(2) VMware ThinApp。 前 身 是 Thinstall, 被 VMware 收购 。 不 需要 第 三 方 平台 ,直接 
把 虚拟 引擎 ( 重 写 了 几 百 个 Windows 的 APD 和 软件 打包 成 单 文件 ,分 发 简单 ,支持 同时 运 
行 一 个 软件 的 多 个 版 本 。 但 是 和 系统 的 结合 不 够 紧密 ,比如 说 文件 关联 、 类 似 于 Winrar 等 
的 右键 菜单 .无 法 封装 环境 包 (. NET HEA Java 环境 ) .无 法 封装 服务 。 它 主要 用 于 企业 软 
件 分 发 。 

(3) Symantec Software Virtualization Solution (SVS). SVS 于 2006 年 左右 被 
Symantec 收购 , 它 的 虚拟 引擎 和 虚拟 软件 包 是 分 离 的 ,能 做 到 对 应 用 程序 的 完美 支持 ,包括 
支持 Windows 外 过 扩展 的 程序 ,支持 封装 环境 包 (. NET 框架 、Java 环境 ) .支持 封装 服务 。 
但 是 无 法 同时 运行 同一 个 软件 的 不 同 版 本 。 它 主要 用 于 企业 软件 分 发 。 

(4) Install Free. Install Free 是 后 起 之 秀 , 其 最 大 特色 在 于 无 须 在 干净 的 环境 下 打包 
软件 ,也 可 以 做 到 很 好 的 兼容 性 ,主要 应 用 于 企业 软件 的 分 发 。 打 包 软 件 是 应 用 虚拟 化 技术 
的 一 大 难题 。 要 实现 一 个 软件 的 随处 免 安装 使 用 ,就 必须 把 软件 正常 安装 后 的 文件 都 打 成 
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包 , 但 如 果 系统 不 干净 ,就 会 造成 打包 文件 的 不 完整 ,分 发 到 其 他 计算 机 无 法 使 用 。 

(5) Sandbox ]I 正 。 俗 称 沙盘 ,主要 用 于 软件 测试 和 安全 领域 。 它 像 一 个 软件 的 办 第 ,可 
以 把 软件 安装 在 沙盘 里 ,并 运行 在 其 中 ,软件 所 有 行为 都 不 会 影响 到 系统 。 如 果 软 件 带 毒 或 
被 感染 病毒 ,可 以 一 下 扫 光 ,就 像 把 一 个 真实 沙盘 里 的 各 种 沙 造物 体 打 碎 , 然 后 重 来 。 

(6) 云端 软件 平台 (Softcloud) 。 这 是 应 用 虚拟 化 领域 的 优秀 国产 软件 ,面市 不 久 , 其 实 
现 原理 与 SVS 类 似 。 但 其 最 大 的 特别 之 处 在 于 ,不 是 应 用 于 企业 市 场 ,而 是 针对 个 人 用 户 
使 用 软件 时 的 诸多 问题 和 烦恼 的 解决 方案 。 应 用 软件 时 无 须 安装 ,一 点 就 用 ,不 写 注 册 表 、 
不 写 系统 ; 无 用 软件 可 以 一 键 删 除 ,快速 干净 不 残留 。 而 且 最 省 事 的 一 点 是 ,在 重 装 系统 
后 ,所 有 软件 不 用 重 装 。 因 为 在 云端 使 用 的 软件 在 云端 的 缓存 目录 里 , 重 装 系 统 后 只 要 安装 
云端 ,再 次 指定 这 个 目录 ,所 有 软件 就 可 以 立即 恢复 使 用 ,并 且 无 须 重 新 配置 。 

高 级 语言 虚拟 化 解决 的 是 可 执行 程序 在 不 同 计算 平台 间 迁 移 的 问题 。 在 高 级 语言 虚拟 
化 中 ,由 高 级 语言 编写 的 程序 被 编译 为 标准 的 中 间 指 令 。 这 些 中 间 指 令 被 解释 执行 或 被 动 
态 翻译 执行 ,因而 可 以 运行 在 不 同 的 体系 结构 之 上 。 例 如 ,被 广泛 应 用 的 Java 虚拟 机 技术 ， 
它 解 除 下 层 的 系统 平台 (包括 硬件 与 操作 系统 ) 与 上 层 的 可 执行 代码 间 的 耦合 ,实现 跨 平台 
执行 。 用 户 编写 的 Java 源 程 序 通 过 IDK 编译 成 为 平台 中 立 的 字 节 码 ,作为 Java 虚拟 机 的 
HA. Java 虚拟 机 将 字 节 码 转 换 为 特定 平台 上 可 执行 的 二 进 制 机 器 代码 ,从 而 达到 了 “一 
次 编译 ,处 处 执行 的 效果 。 


7.2.2 从 应 用 的 领域 划分 


从 应 用 的 领域 划分 ,可 以 分 为 应 用 虚拟 化 、 桌 面 虚拟 化 、 服 务 器 虚拟 化 ,存储 虚拟 化 、 网 
络 虚拟 化 。 

1. 应 用 虚拟 化 

应 用 虚拟 化 是 把 应 用 对 底层 系统 和 硬件 的 依赖 抽象 出 来 ,从 而 解除 应 用 与 操作 系统 和 
硬件 的 耦合 关系 。 应 用 程序 运行 在 本 地 应 用 虚拟 化 环境 中 时 ,这 个 环境 为 应 用 程序 屏蔽 了 
底层 可 能 与 其 他 应 用 产生 冲突 的 内 容 , 如 图 7-3 所 示 。 
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图 7-3 应 用 虚拟 化 
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应 用 虚拟 化 是 SaaS 的 基础 。 应 用 虚拟 化 需要 具备 以 下 功能 和 特点 : 

(1) 解 耦 合 。 利 用 屏蔽 底层 异 构 性 的 技术 解除 虚拟 应 用 与 操作 系统 和 硬件 的 耦合 
关系 。 

(2) 共享 性 。 应 用 虚拟 化 可 以 使 一 个 真实 应 用 运行 在 任何 共享 的 计算 资源 上 。 

(3) 虚拟 环境 。 应 用 虚拟 化 为 应 用 程序 提供 了 一 个 虚拟 的 运行 环境 ,不 仅 拥有 应 用 程 
序 的 可 执行 文件 ,还 包括 所 需 的 运行 环境 。 

(4) 兼容 性 。 虚 拟 应 用 应 屏蔽 底层 可 能 与 其 他 应 用 产生 冲突 的 内 容 , 从 而 使 其 具有 良 
好 的 兼容 性 。 

(5) 快速 升级 更 新 。 真 实 应 用 可 以 快速 升级 更 新 ,通过 流 的 方式 将 相对 应 的 虚拟 应 用 
及 环境 快速 发 布 到 客户 端 。 

(6) 用 户 自 定 义 。 用 户 可 以 选择 自己 喜欢 的 虚拟 应 用 的 特点 及 所 支持 的 虚拟 环境 。 

2. 桌面 虚拟 化 

桌面 虚拟 化 将 用 户 的 桌面 环境 与 其 使 用 的 终端 设备 解 耦 。 服 务 器 上 存放 的 是 每 个 用 户 
的 完整 桌面 环境 ,用 户 可 以 使 用 不 同 终端 设备 通过 网 络 访问 该 桌面 环境 ,如 图 7-4 所 示 。 


= 4 
=f 
3 4 ~ 
、 




















图 7-4 桌面 虚拟 化 


桌面 虚拟 化 具有 如 下 功能 和 接 入 标准 

(1) 集中 管理 维护 。 集 中 在 服务 器 端 管理 和 配置 PC 环境 及 其 他 客户 端 需要 的 软件 ,可 
以 对 企业 数据 .应 用 和 系统 进行 集中 管理 .维护 和 控制 ,以 减少 现场 支持 工作 量 。 

(2) 使 用 连续 性 。 确 保 终 端 用 户 下 次 在 另 一 个 虚拟 机 上 登录 时 ,依然 可 以 继续 以 前 的 
配置 和 存储 文件 内 容 , 让 使 用 具有 连续 性 。 

(3) 故障 恢复 。 桌 面 虚拟 化 是 用 户 的 桌面 环境 被 保存 为 一 个 个 虚拟 机 ,通过 对 虚拟 机 
进行 快照 和 备份 ,就 可 以 快速 恢复 用 户 的 故障 桌面 ,并 实时 迁移 到 另 一 个 虚拟 机 上 继续 进行 
工作 。 

(4) 用 户 自 定义 。 用 户 可 以 选择 自己 喜欢 的 桌面 操作 系统 .显示 风格 .默认 环境 ,以 及 
其 他 各 种 自 定义 功能 。 

3. 服务 器 虚拟 化 

服务 器 虚拟 化 技术 可 以 将 一 个 物理 服务 器 虚拟 成 若干 个 服务 器 使 用 ,如 图 7-5 所 示 。 
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服务 器 虚拟 化 是 基础 设施 即 服务 (Infrastructure as a Service,IaaS) 的 基础 。 
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图 7-5 服务 器 虚拟 化 


服务 器 虚拟 化 需要 具备 以 下 功能 和 技术 : 

(1) 多 实例 。 在 一 个 物理 服务 器 上 可 以 运行 多 个 虚拟 服务 器 。 

(2) 隔离 性 。 在 多 实例 的 服务 器 虚拟 化 中 ,一 个 虚拟 机 与 其 他 虚拟 机 完全 隔离 ,以 保证 
良好 的 可 靠 性 及 安全 性 。 

(3) CPU 虚拟 化 。 把 物理 CPU 抽象 成 虚拟 CPU ,无 论 任何 时 间 一 个 物理 CPU 只 能 运 
行 一 个 虚拟 CPU 的 指令 。 而 多 个 虚拟 机 同时 提供 服务 将 会 大 大 提高 物理 CPU 的 利用 率 。 

(4) 内 存 虚 拟 化 。 统 一 管理 物理 内 存 , 将 其 包装 成 多 个 虚拟 的 物理 内 存 分 别 供给 若干 
个 虚拟 机 使 用 ,使 得 每 个 虚拟 机 拥有 各 自 独立 的 内 存 空 间 , 互 不 干扰 。 

(5) 设备 与 1O 虚拟 化 。 统 一 管理 物理 机 的 真实 设备 ,将 其 包装 成 多 个 虚拟 设备 给 若 
干 个 虚拟 机 使 用 ,响应 每 个 虚拟 机 的 设备 访问 请 求 和 1/O 请 求 。 

(6) 无 知觉 故障 恢复 。 运 用 虚拟 机 之 间 的 快速 热 迁移 技术 (Live Migration) ,可 以 使 一 
个 故障 虚拟 机 上 的 用 户 在 没有 明显 感觉 的 情况 下 迅速 转移 到 另 一 个 新 开 的 正常 虚拟 机 上 。 

(7) 负载 均衡 。 利 用 调度 和 分 配 技术 ,平衡 各 个 虚拟 机 和 物理 机 之 间 的 利用 率 。 

(8) 统一 管理 。 由 多 个 物理 服务 器 支持 的 多 个 虚拟 机 的 动态 实时 生成 .启动 .停止 . 迁 
PS .调度 .负荷 ,监控 等 应 当 有 一 个 方便 易 用 的 统一 管理 界面 。 

(9) 快速 部 署 。 整 个 系统 要 有 一 套 快 速 部 署 机 制 ,对 多 个 虚拟 机 及 上 面 的 不 同 操作 系 
统 和 应 用 进行 高 效 部 署 、 更 新 和 升级 。 

4. 网 络 虚拟 化 
网 络 虚拟 化 也 是 基础 设施 即 服务 的 基础 。 网 络 虚拟 化 是 让 一 个 物理 网 络 能 够 支持 多 个 
逻辑 网 络 , 虚 拟 化 保留 了 网 络 设计 中 原 有 的 层次 结构 、 数 据 通道 和 所 能 提供 的 服务 ,使 得 最 
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终 用 户 的 体验 和 独 享 物理 网 络 一 样 ,同时 网 络 虚 拟 化 技术 还 可 以 高 效 地 利用 网 络 资源 ,如 空 
间 、 能 源 、 设 备 容量 等 。 

网 络 虚拟 化 具有 以 下 功能 和 特点 : 

(1) 网 络 虚拟 化 能 大 幅度 节省 企业 的 开销 。 一 般 只 需要 一 个 物理 网 络 即 可 满足 服务 
要 求 。 

C2) 简化 企业 网 络 的 运 维和 管理 。 

(3) 提高 了 网 络 的 安全 性 。 多 套 物 理 网 时 很 难 做 到 安全 策略 的 统一 和 协调 ,在 一 套 物 
理 网 可 以 将 安全 策略 下 发 到 各 虚拟 网 络 中 ,各 虚拟 网 络 间 是 完全 的 逻辑 隔离 ,一 个 虚拟 网 络 
上 操作 变化、 故障 等 不 会 影响 到 其 他 的 虚拟 网 络 。 

(4) 提升 了 网 络 和 业务 的 可 靠 性 。 如 在 虚拟 网 络 中 可 以 把 多 台 核 心 交换 机 通过 虚拟 化 
技术 融合 为 一 台 , 当 集群 中 一 些小 的 设备 故障 时 整个 的 业务 系统 不 会 有 任何 的 影响 。 

(5) 满足 新 型 数据 中 心 应 用 程序 的 要 求 。 如 云 计算 、 服 务 器 集群 技术 等 新 数据 中 心 应 
用 都 要 求 数据 中 心 和 广域网 有 高 性 能 的 可 扩展 的 虚拟 化 能 力 。 

企业 可 以 将 园区 和 数据 中 心 内 的 网 络 虚拟 化 ,通过 广域网 扩展 到 企业 分 布 在 各 地 的 小 
型 数据 中 心 、 备 份 数据 中 心 等 。 

5. 存储 虚拟 化 

存储 虚拟 化 也 是 基础 设施 即 服务 的 基础 。 存 储 虚拟 化 将 整个 云 计 算 系统 的 存储 资源 进 
行 统一 整合 管理 ,为 用 户 提供 一 个 统一 的 存储 空间 ,如 图 7-6 所 示 。 


wh ip 


终端 用 户 的 接 入 需 
要 安全 认证 、 数据 虚拟 存储 资源 池 
加 密 等 安全 措 





划分 给 终端 划分 给 服务 器 








图 7-6 存储 虚拟 化 
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存储 虚拟 化 具有 以 下 功能 和 特点 : 

(1) 集中 存储 。 存 储 资源 统一 整合 管理 ,集中 存储 ,形成 数据 中 心 模式 。 

(2) 分 布 式 扩展 。 存 储 介质 易于 扩展 ,由 多 个 异 构 存 储 服 务 器 实现 分 布 式 存储 ,以 统一 
模式 访问 虚拟 化 后 的 用 户 接口 。 

(3) 绿色 环保 。 服 务 器 和 硬盘 的 耗 电 量 巨 大 ,为 提供 全 时 段 数据 访问 ,存储 服务 器 及 硬 
盘 不 可 以 停机 。 但 为 了 节能 减 排 ` 绿 色 环保 ,需要 利用 更 合理 的 协议 和 存储 模式 , 尽 可 能 减 
少 开 启 服务 器 和 硬盘 的 次 数 。 

(4) 虚拟 本 地 硬盘 。 存 储 虚拟 化 应 当 便于 用 户 使 用 ,最 方便 的 形式 是 将 云 存储 系统 虚 
拟 成 用 户 本 地 硬盘 ,使 用 方法 与 本 地 硬盘 相同 。 

(5) 安全 认证 。 新 建 用 户 加 入 云 存储 系统 前 ,必须 经 过 安全 认证 并 获得 证 书 。 

(6) 数据 加 密 。 为 了 保证 用 户 数据 的 私密 性 ,将 数据 存储 到 云 存储 系统 时 必须 加 密 。 
加 密 后 的 数据 除了 被 授权 的 特殊 用 户外 ,其 他 人 一 概 无 法 解密 。 

(7) 层级 管理 。 支 持 层级 管理 模式 , 即 上 级 可 以 监控 下 级 的 存储 数据 ,而 下 级 无 法 查看 
上 级 或 平 级 的 数据 。 

下 面 就 从 应 用 领域 分 类 ,详细 介绍 各 种 虚拟 化 技术 。 


7.3 应 用 虚拟 化 


应 用 程序 包括 很 多 不 同 的 程序 部 件 ,如 动态 链接 库 。 如 果 一 个 程序 的 正确 运行 需要 一 
个 特定 链接 库 , 而 另 一 个 程序 需要 这 个 动态 链接 库 的 另 一 个 版 本 ,那么 在 同一 个 系统 这 两 个 
应 用 程序 就 会 造成 动态 链接 库 的 冲突 ,其 中 一 个 程序 会 覆盖 另 一 个 程序 动态 链接 库 , 造 成 程 
序 不 可 用 。 因 此 , 当 系 统 或 应 用 程序 升级 或 打 补 丁 时 都 有 可 能 导致 应 用 之 间 的 不 兼容 。 应 
用 程序 运行 总 是 要 进行 严格 而 烦琐 的 测试 来 保证 新 应 用 与 系统 中 的 已 有 应 用 不 存在 冲突 。 
这 个 过 程 需要 耗费 大 量 的 人 力 、 物 力 和 财力 。 因 此 ,应 用 虚拟 化 技术 应 运 而 生 。 


7.3.1 应 用 虚拟 化 的 使 用 特点 


应 用 程序 虚拟 化 安装 在 一 个 虚拟 环境 里 面 ,与 操作 系统 隔离 ,拥有 应 用 程序 相关 的 所 有 
共享 资源 , 极 大 地 方便 了 应 用 程序 的 部 署 、 更 新 和 维护 。 通 常 应 用 虚拟 化 与 应 用 程序 生命 周 
期 管理 结合 起 来 ,使 用 效果 比较 好 。 

1. 部 署 方面 

(1) 不 需要 安装 。 应 用 程序 虚拟 化 的 应 用 程序 包 会 以 流 媒 体 部 署 到 客户 端 , 有 点 像 绿 
色 软 件 ,只 要 复制 就 能 使 用 。 

(2) 没有 残留 的 信息 。 应 用 程序 虚拟 化 并 不 会 在 移 除 之 后 ,在 机 器 上 产生 任何 文件 或 
者 设置 。 

(3) 不 需要 更 多 的 系统 资源 。 应 用 虚拟 化 和 安装 在 本 地 的 应 用 一 样 使 用 本 地 或 者 网 络 
驱动 器 ,CPU 或 者 内 存 。 

(4) 事先 配置 好 的 应 用 程序 。 应 用 程序 虚拟 化 的 应 用 程序 包 本 身 就 涵盖 了 程序 所 要 的 
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2. 更 新 方面 

(1) 更 新 方便 。 只 需要 在 应 用 程序 虚拟 化 的 服务 器 上 进行 一 次 更 新 即 可 。 

(2) 无 颖 的 客户 端 更 新 。 一 旦 在 服务 器 端 进行 更 新 ,客户 端 便 会 自动 地 获取 更 新 版 本 ， 
无 须 逐 一 更 新 。 

3. 支持 方面 

(1) 减少 应 用 程序 间 的 冲突 。 由 于 每 个 虚拟 化 过 的 应 用 程序 均 运 行 在 各 自 的 虚拟 环境 
里 ,因此 并 不 会 有 因 共 享 组 件 版 本 的 问题 ,而 减少 应 用 程序 之 间 的 冲突 。 

(2) 减少 技术 支持 的 工作 量 。 应 用 程序 虚拟 化 的 程序 跟 传 统 安装 本 地 的 应 用 不 同 , 需 
要 经 过 封装 测试 才 进 行 部 署 ,此 外 也 不 会 因为 使 用 者 误 删 除 某 些 文件 导致 无 法 运行 ,所 以 从 
这 些 角 度 来 说 ,可 以 减少 使 用 者 对 于 技术 支持 的 需求 量 。 

(3) 增加 软件 的 合 规 性 。 应 用 程序 虚拟 化 可 以 针对 有 需求 的 使 用 者 进行 权限 配置 才 人 允 
许 使 用 ,这 方便 了 管理 员 对 于 软件 授权 的 管理 。 

4. 终止 方面 

完全 移 除 应 用 程序 ,并 且 不 会 在 本 地 计算 机 有 任何 的 影响 ,管理 员 只 要 在 管理 界面 上 进 
行 权限 设 定 ,应 用 程序 在 客户 端 就 会 停止 使 用 。 


7.3.2 应 用 虚拟 化 的 优势 


应 用 虚拟 化 把 应 用 程序 从 操作 系统 中 解放 出 来 ,使 应 用 程序 不 受用 户 计算 环境 变化 带 
来 的 影响 , 带 来 了 极 大 的 机 动 性 、 灵 活性 ,显著 提高 了 IT 效率 及 安全 性 和 控制 力 。 用 户 无 
须 在 自己 的 计算 机 上 安装 完整 的 应 用 程序 ,也 不 受 自身 有 限 的 计算 条 件 限制 即 可 获得 极 高 
的 使 用 体验 。 

1， 降低 部 署 与 管理 问题 

应 用 程序 之 间 的 冲突 ,通过 应 用 虚拟 化 技术 隔离 开 来 ,减少 了 应 用 程序 间 的 冲突 、 版 本 
的 不 兼容 性 及 多 使 用 者 同时 存 取 的 安全 问题 。 在 部 署 方面 ,操作 系统 会 为 应 用 虚拟 化 提供 
各 自 虚拟 组 件 、 文 件 系统 、 服 务 等 应 用 程序 环境 。 

2. 部 署 预 先 配置 好 的 应 用 程序 

应 用 程序 所 有 的 配置 信息 根据 使 用 者 需要 预先 设 定 , 并 会 封装 在 应 用 程序 包 里 ,最 终 部 
署 到 客户 端 计算 机 上 。 当 退出 应 用 程序 的 时 候 ,相关 配置 会 保存 在 使 用 者 的 个 人 计算 机 账 
户 的 配置 目录 里 面 ,下 一 次 使 用 应 用 程序 时 可 回 到 原来 的 运行 环境 。 

3. 在 同一 台 计算 机 上 运行 不 同 版 本 的 应 用 程序 

企业 常常 会 有 需要 运行 不 同 版 本 的 应 用 程序 。 传 统 的 方式 应 用 两 台 计 算 机 运行 ,使 管 
理 复杂 度 和 投资 成 本 增 大 。 应 用 程序 虚拟 化 ,使 用 者 可 以 在 相同 的 机 器 上 运行 不 同 的 软件 。 

4. 提供 有 效 的 应 用 程序 管理 与 维护 

应 用 程序 虚拟 化 过 的 包 存 储 在 一 个 文件 夹 中 ,并 且 在 管理 界面 上 ,管理 员 可 以 轻松 地 对 
这 些 软 件 进行 配置 与 维护 。 

5. 按 需 求 部 署 

用 户 应 用 程序 时 ,服务 器 会 以 流 媒体 的 方式 根据 用 户 需 要 部 署 到 客户 端 。 例 如 ,一 个 软 
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件 完全 安装 要 1GB 的 空间 ,但 是 使 用 者 可 能 使 用 到 其 中 的 10% ,服务 器 只 会 传 相 应 的 信息 
到 客户 端 ,降低 了 网 络 流量 。 应 用 虚拟 化 大 大 地 提升 了 部 署 效率 及 网 络 性 能 。 


7.3.3 应 用 虚拟 化 要 考虑 的 问题 


应 用 虚拟 化 在 使 用 上 要 考虑 如 下 几 点 。 

1. 安全 性 

应 用 虚拟 化 的 安全 性 由 管理 员 控 制 。 管 理 员 要 考虑 企业 的 机 密 软件 是 否 允 许 离线 使 
用 ,因而 使 用 者 可 以 使 用 哪些 软件 以 及 相关 配置 由 管理 员 决 定 。 此 外 ,由 于 应 用 程序 是 在 虚 
拟 环境 中 运行 , 某 些 程度 上 避免 了 恶意 软件 或 者 病毒 的 攻击 。 

2. 可 用 性 

应 用 虚拟 化 中 ,相关 程序 和 数据 集中 摆 放 ,使 用 者 透 过 网 络 下 载 ,所 以 管理 员 必 须 考虑 
网 络 的 负载 均衡 和 使 用 者 的 并 发 量 。 

3. 性 能 考量 

应 用 虚拟 化 的 程序 运行 ,采用 本 地 CPU、 硬 盘 和 内 存 , 其 性 能 除了 考虑 网 络 速度 因素 
外 ,还 取决 于 本 地 计算 机 的 运算 能 力 。 


7.4 桌面 虚拟 化 


桌面 虚拟 化 将 众多 终端 的 资源 集合 到 后 台数 据 中 心 ,以 便 对 企业 的 成 百 上 千 个 终端 统 
一 认证 ,统一 管理 ,实现 资源 灵活 调配 。 终 端 用 户 通 过 特殊 身份 认证 ,登录 任意 终端 即 可 获 
取 自 相关 数据 ,继续 原 有 业务 , 极 大 地 提高 了 使 用 的 灵活 性 。 


7.4.1 桌面 虚拟 化 优势 


应 用 桌面 虚拟 化 后 ,用 户 使 通常 应 用 瘦 客 户 端 与 服务 器 上 多 个 虚拟 机 的 菜 个 终端 相连 ， 
与 传统 的 桌面 部 署 模 式 相 比 具 有 如 下 优点 。 


1. 降低 了 功 耗 
虚拟 桌面 通常 考虑 使 用 瘦 客 户 端 , 极 大 地 节省 了 资源 。 
2. 提高 了 安全 性 


虚拟 桌面 的 操作 系统 在 服务 器 中 , 因而 比 传统 桌面 PC 更 易于 保护 , 免 受 恶意 攻击 ,还 
可 以 从 这 个 集中 位 置 处 理 安 全 补丁 。 并 且 桌 面 虚拟 化 某 种 瘦 客 户 端 ,可 以 防止 USB 接口 ， 
减少 了 病毒 感染 和 数据 被 窃取 的 可 能 性 。 

3. 简化 部 署 及 管理 

虚拟 桌面 可 以 集中 控制 各 个 桌面 ,不 需要 前 往 每 个 工作 区 就 能 迅速 为 虚拟 桌面 打上 
HT. 

4. 降低 了 费用 

虚拟 桌面 的 使 用 同时 降低 了 硬件 成 本 和 管理 成 本 , 极 大 地 节省 了 费用 。 先 构建 一 个 允 
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许 用 户 共 享 的 “ 主 ” 系 统 磁盘 镜像 ,桌面 虚拟 化 系统 在 用 户 需 要 时 做 镜像 备份 ,提供 给 用 户 。 
为 了 让 不 同 的 用 户 使 用 不 同 的 应 用 程序 ,需要 创建 一 个 共享 镜像 的 “基准 ”, 在 这 个 基准 镜像 
上 安装 所 有 应 用 程序 ,保证 公司 内 的 每 一 个 人 都 可 以 使 用 。 然 后 使 用 应 用 程序 虚拟 化 包 在 
每 个 用 户 的 桌面 上 安装 用 户 需 要 的 个 性 化 应 用 程序 。 

桌面 虚拟 化 之 所 以 在 近年 成 为 热点 ,一 个 很 大 的 原因 是 相关 产品 的 成 熟 和 安全 性 能 提 
高 。 多 个 IT 巨头 纷纷 推出 了 自己 的 桌面 虚拟 化 产品 。 


7.4.2 桌面 虚拟 化 使 用 条 件 


桌面 虚拟 化 使 用 瘦 客 户 或 其 他 设备 通过 网 络 登 录用 户 自己 的 环境 ,因而 需要 如 下 使 用 
条 件 。 

1. 健全 的 网 络 环境 

网 络 作为 桌面 虚拟 化 的 传输 载体 起 着 关键 性 作用 ,保证 网 络 的 稳定 是 桌面 虚拟 化 实现 
的 重要 条 件 。 

2. 高 可 靠 性 的 虚拟 化 环境 

在 桌面 虚拟 化 环境 中 所 有 用 户 使 用 的 桌面 都 运行 在 数据 中 心 ,其 中 的 任何 一 个 环节 出 
现 问 题 ,很 可 能 会 导 臻 整个 桌面 虚拟 化 环境 崩溃 ,搭建 高 可 用 、 高 安全 的 数据 虚拟 化 数据 中 
心 是 关键 。 

3. 改变 原来 的 运 维 流 程 

应 用 桌面 虚拟 化 环境 后 ,如 果 遇 到 系统 性 问题 ,管理 员 基 本 不 必 到 使 用 者 现场 对 桌面 进 
行 维护 ,通过 统一 的 桌面 管理 中 心 能 够 管理 所 有 使 用 者 桌面 ,和 传统 的 运作 维护 流程 不 同 。 

4. 充足 的 网 络 带宽 

为 了 实现 较 好 的 用 户 体验 ,还 需要 具有 充足 的 带宽 以 保证 较 好 的 图 像 显示 的 用 户 体验 。 
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7.5 服务 器 虚拟 化 


服务 器 虚拟 化 是 指 能 够 在 一 台 物 理 服务 器 上 运行 多 台 虚 拟 服务 器 的 技术 ,多 个 虚拟 服 
务 器 之 间 的 数据 是 隔离 的 ,虚拟 服务 器 对 资源 的 占用 是 可 控 的 。 用 户 可 以 在 虚拟 服务 器 上 
灵活 地 安装 任何 软件 。 


7.5.1 服务 器 虚拟 化 架构 


在 服务 器 虚拟 化 技术 中 ,被 虚拟 出 来 的 服务 器 称 为 虚拟 机 (Virtual Machine,VM)。 运 
行 在 虚拟 机 里 的 操作 系统 称 为 客户 操作 系统 (Guest OS) 。 负 责 管 理 虚 拟 机 的 软件 称 为 虚 
拟 机 管理 器 (VMM) ,也 称 为 Hypervisor。 

服务 器 虚拟 化 通常 有 两 种 架构 ,分 别 是 寄生 架构 (Hosted) 与 裸 金属 架构 (Bare-Metal) 。 

1. 寄生 架构 

一 般 而 言 ,寄生 架构 在 操作 系统 之 上 再 安装 一 个 虚拟 机 管理 器 ,然后 用 VMM 创建 并 
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管理 虚拟 机 。VMM 看 起 来 像 是 “寄生 ”在 操作 系统 上 的 ,该 操作 系统 称 为 宿主 操作 系统 
(Host OS) ,如 图 7-7 所 示 。 例 如 ,Oracle 公司 的 Virtual Box 就 是 一 种 寄生 架构 。 

2. 裸 金属 架构 

顾名思义 , 裸 金 属 架 构 是 指 将 VMM 直接 安装 在 物理 服务 器 之 上 而 无 须 先 安装 操作 系 
统 的 预 装 模 式 。 再 在 VMM 上 安装 其 他 操作 系统 (如 Windows, Linux 等 )。 由 于 VMM 是 
直接 安装 在 物理 计算 机 上 的 , 故 称 为 裸 金属 架构 ,例如 KVM, Xen, VMware ESx。 裸 金属 
架构 是 直接 运行 在 物理 硬件 之 上 的 ,无 须 通过 Host OS, 所 以 性 能 比 寄生 架构 更 高 。 

用 Xen 技术 实现 裸 金属 架构 服务 器 虚拟 化 ,如 图 7-8 所 示 , 其 中 有 三 个 Domain, 
Domain 就 是 “ 域 ”, 更 通俗 地 说 ,就 是 一 台 虚 拟 机 。Xen 发 布 的 裸 金属 版 本 里 面 就 包含 了 一 
个 裁剪 过 的 Linux 内 核 , 它 为 Xen 提供 了 除 CPU 调度 和 内 存 管理 之 外 的 所 有 功能 ,包括 硬 
件 驱动 IVO、 网 络 协议 文件 系统 .进程 通信 等 所 有 其 他 操作 系统 所 做 的 事情 。 这 个 Linux 
内 核 就 运行 在 Domain 0 里 面 。 启 动 裸 金属 架构 的 Xen 时 会 自动 启动 Domain 0, Domain 1 
和 Domain 2 启动 后 , 几 个 域 相互 可 能 会 有 一 些 通信 ,公用 服务 器 资源 。 
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图 7-7 寄生 架构 图 7-8 裸 金 属 架构 


从 目前 的 趋势 来 看 ,虚拟 化 将 成 为 操作 系统 本 身 功 能 的 一 部 分 。 例 如 ,KVM 就 是 
Linux 标准 内 核 的 一 个 模块 ,微软 公司 的 Windows 2008 也 自 带 HyperV。 下 面 将 介绍 服务 
器 几 个 关键 部 件 的 虚拟 化 方法 ,包括 CPU 内存.I/O 的 虚拟 化 。 


7.5.2 CPU 虚拟 化 


CPU 虚拟 化 是 指 将 物理 CPU 虚拟 成 多 个 虚拟 CPU 供 虚 拟 机 使 用 。 虚 拟 CPU 时 分 复 
用 物理 CPU ,虚拟 机 管理 器 负责 为 虚拟 CPU 分 配 时 间 片 ,管理 虚拟 CPU 的 状态 。 

在 x86 指令 集中 ,CPU 有 0~3 共 4 个 特权 级 (Ring)。 其 中 ,0 级 具有 最 高 的 特权 ,用 于 
运行 操作 系统 ; 3 级 具有 最 低 的 特权 ,用 于 运行 用 户 程序 ; 1 级 和 2 级 很 少 使 用 ,如 图 7-9 所 
示 。 在 对 x86 服务 器 实施 虚拟 化 时 ,VMM 占据 0 级 ,拥有 最 高 的 特权 级 ; 而 虚拟 机 中 安装 
的 Guest OS 只 能 运行 在 更 低 的 特权 级 中 ,不 能 执行 那些 只 能 在 0 级 执行 的 特权 指令 。 为 
此 ,在 实施 服务 器 虚拟 化 时 ,必须 要 对 相关 CPU 特权 指令 的 执行 进行 虚拟 化 处 理 ,Guest 
OS 将 有 一 定 权 限 执 行 特 权 指令 。 

但 是 ,Guest OS 中 的 某 些 特权 指令 ,如 中 断 处 理 和 内 存 管理 等 指令 如 果 不 运 行 在 0 级 
别 将 会 具有 不 同 的 语义 ,产生 不 同 的 效果 ,或 者 根本 不 产生 作用 。 问 题 的 关键 在 于 这 些 在 虚 
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拟 机 里 执行 敏感 指令 不 能 直接 作用 于 真实 硬件 之 上 ,而 需要 通过 虚拟 机 监视 器 接管 和 模拟 。 
这 使 得 实现 虚拟 化 x86 体系 结构 比较 困难 。 








Direct 
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Non-root of User 
Mode Requests 
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图 7-9 CPU 特权 级 


为 了 解决 x86 体系 结构 下 的 CPU 虚拟 化 问题 ,业界 提出 了 全 虚拟 化 (Full-Virtualization) 
和 半 虚 拟 化 (Para-Virtualization) 两 种 不 同 通过 软件 实现 虚拟 化 方法 。 业 界 还 提出 了 在 硬 
件 层 添加 支持 功能 来 处 理 这 些 敏感 的 高 级 别 指令 ,实现 基于 硬件 虚拟 化 (Hardware 
Assisted Virtualization) 解 决 方案 。 

全 虚拟 化 通常 采用 二 进 制 代码 动态 翻译 技术 (Dynamic Binary Translation) 来 解决 
Guest OS 特权 指令 问题 。 二 进 制 代码 动态 翻译 ,在 Guest OS 的 运行 过 程 中 , 当 它 需要 执行 
在 第 0 级 才能 执行 的 特权 指令 时 ,陷入 运行 在 第 0 级 的 虚拟 机 中 。 虚 拟 机 捕捉 到 这 一 指令 
后 ,将 相应 指令 的 执行 过 程 用 本 地 物理 CPU 指令 集中 的 指令 进行 模拟 ,并 将 执行 结果 返回 
Guest OS, 从 而 实现 Guest OS 在 较 高 一 级 环境 下 对 特权 指令 的 执行 。 全 虚拟 化 将 在 Guest 
OS 内 核 态 执行 的 敏感 指令 转换 成 可 以 通过 虚拟 机 运行 的 具有 相同 效果 的 指令 ,对 于 非 敏 
感 指令 则 可 以 直接 在 物理 处 理 器 上 运行 ,Guest OS 就 像 是 运行 在 真实 的 物理 环境 中 。 全 虚 
拟 化 的 优点 在 于 代码 的 转换 工作 是 动态 完成 的 ,无 须 修改 Guest OS, 可 以 支持 多 种 操作 系 
统 。 然 而 , 动态 转换 需要 一 定 的 性 能 开销 。Microsoft PC, Microsoft Virtual Server, 
VMware WorkStation 和 VMware ESX Server 的 早期 版 本 都 用 全 虚拟 化 技术 。 

半 虚 拟 化 通过 修改 Guest OS 将 所 有 敏感 指令 蔡 换 成 底层 虚拟 化 平台 的 超级 调用 
(CHypercall) 来 解决 虚拟 机 执行 特权 指令 的 问题 。 虚 拟 化 平台 也 为 敏感 指令 提供 了 调用 接 
口 。 半 虚拟 化 中 ,经 过 修改 的 Guest OS 知道 处 在 虚拟 化 环境 中 ,从 而 主动 配合 虚拟 机 ,在 
需要 的 时 候 对 虚拟 化 平台 进行 调用 来 完成 敏感 指令 的 执行 。 在 半 虚 拟 化 中 ,Guest OS 和 虚 
拟 化 平台 必须 兼容 ,否则 无 法 有 效 地 操作 宿主 物理 机 。Citrix 的 Xen, VMvare 的 ESX 
Server 和 Microsoft 的 Hyper-V 的 最 新 版 本 都 采用 了 半 虚 拟 化 。 

全 虚拟 化 和 半 虚 拟 化 都 是 纯 软件 的 CPU 虚拟 化 ,不 要 求 对 x86 架构 下 的 CPU 做 任何 
改变 。 但 是 ,不 论 是 全 虚拟 化 的 二 进 制 翻 译 技术 ,还 是 半 虚 拟 化 的 超级 调用 技术 ,都 会 增加 
系统 的 复杂 性 和 开销 。 并 且 在 半 虚 拟 化 中 要 充分 考虑 Guest OS 和 虚拟 化 平台 的 兼容 性 。 

因而 ,基于 硬件 虚拟 化 应 运 而 生 。 该 技术 在 CPU 中 加 入 了 新 的 指令 集 和 相关 的 运行 
模式 来 完成 与 CPU 虚拟 化 相关 的 功能 。 目 前 .Intel 公司 和 AMD 公司 分 别 推出 了 硬件 辅 
助 虚拟 化 技术 Intel VT 和 AMD-V, 并 逐步 集成 到 最 新 推出 的 微 处 理 器 产品 中 。Intel VT 
支持 硬件 辅助 虚拟 化 .增加 了 名 为 虚拟 机 扩展 (Virtual Machine Extensions. VMx) 的 指令 
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集 , 包 括 十 几 条 的 新 增 指令 来 支持 与 虚拟 化 相关 的 操作 。 此 外 .Intel VT 为 处 理 器 定义 了 
两 种 运行 模式 : 根 模式 (Root) 和 非 根 模式 (Non-Root)。 虚 拟 化 平台 运行 在 根 模式 ,Guest 
OS 运行 在 非 根 模式 。 由 于 硬件 辅助 虚拟 化 支持 Guest OS 直接 在 CPU 上 运行 ,无 须 进行 
二 进 制 翻译 或 超级 调用 ,因此 减少 了 相关 的 性 能 开销 ,简化 了 设计 。 目 前 ,主流 的 虚拟 化 软 
件 厂 商 也 在 通过 和 CPU 厂商 的 合作 来 提高 产品 效率 和 兼容 性 。 

现在 ,主流 的 虚拟 化 产品 都 已 经 转型 到 基于 硬件 辅助 的 CPU 虚拟 化 。 例 如 ,KVM 在 
一 开始 就 要 求 CPU 必须 支持 虚拟 化 技术 。 此 外 ,VMware、Xen、Hyper-V 等 都 已 经 支持 基 
于 硬件 辅助 的 CPU 虚拟 化 技术 了 。 


7.5.3 内 存 虚拟 化 


内 存 虚拟 化 技术 把 物理 机 的 真实 物理 内 存 统一 管理 ,包装 成 多 个 虚拟 的 物理 内 存 , 分 别 
供 若干 个 虚拟 机 使 用 ,每 个 虚拟 机 拥有 各 自 独 立 的 内 存 空间 ,如 图 7-10 所 示 。 
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图 7-10 内 存 虚拟 化 


为 实现 内 存 虚拟 化 ,内 存 系统 中 共有 三 种 地 址 。 
© 机 器 地 址 (Machine Address,MA) 。 真 实 硬件 的 机 器 地 址 ,在 地 址 总 线 上 可 以 见 到 
的 地 址 信号 。 
。 虚拟 机 物理 地 址 (Guest Physical Address,GPA)。 经 过 VMM 抽象 后 虚拟 机 看 到 
的 伪 物 理 地 址 。 
。 虚拟 地 址 (Virtual Address, VA). Guest OS 为 其 应 用 程序 提供 的 线性 地 址 空间 。 
虚拟 地 址 到 虚拟 机 物理 地 址 的 映射 关系 记 作 g. H Guest OS 负责 维护 。 对 于 Guest OS 
而 言 , 它 并 不 知道 自己 所 看 到 的 物理 地 址 其 实 是 虚拟 的 物理 地 址 。 虚 拟 机 物理 地 址 到 机 器 
地 址 的 映射 关系 记 作 ,由 虚拟 机 管理 器 的 内 存 模块 进行 维护 。 
普通 的 内 存 管理 单元 (Memory Management Unit. MMU) 只 能 完成 一 次 虚拟 地 址 到 物 
理 地 址 的 映射 ,但 获得 的 物理 地 址 只 是 虚拟 机 物理 地 址 ,而 不 是 机 器 地 址 ,所 以 还 要 通过 
VMM 来 获得 总 线 上 可 以 使 用 的 机 器 地 址 。 但 是 ,如 果 每 次 内 存 访问 操作 都 需要 VMM 的 
参与 ,效率 将 变 得 极 低 。 为 了 实现 虚拟 地 址 到 机 器 地 址 的 高 效 转换 ,目前 普遍 采用 的 方法 是 
H VMM 根据 映射 和 g 生成 复合 映射 1. g EISA MMU. 具体 的 实现 方法 有 两 种 ,如 
图 7-11 所 示 。 
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图 7-11 内 存 虚拟 化 的 两 种 方法 


1. 页 表 写 入 法 

Xen 主要 应 用 该 技术 .其 主要 原理 是 : 当 Guest OS 创建 新 页 表 时 ,VMM 从 维护 的 空 
闲 内 存 中 分 配 页 面 并 进行 注册 ,以 后 Guest OS 对 该 页 表 的 写 操作 都 会 陷入 VMM 中 进行 
验证 和 转换 ; VMM 检查 页 表 中 的 每 一 项 ,确保 它们 只 映射 属于 该 虚拟 机 的 机 器 页 面 ,而 且 
不 包含 对 页 表 页 面 的 可 写 映 射 ; 然后 VMM 会 根据 其 维护 的 映射 关系 将 页 表 项 中 的 物理 地 
址 替换 为 相应 的 机 器 地 址 ; 最 后 再 把 修改 过 的 页 表 载 入 MMU. MMU 就 可 以 根据 修改 过 的 
页 表 直 接 完 成 从 虚拟 地 址 到 机 器 地 址 的 转换 了 。 这 种 方式 的 本 质 是 将 映射 关系 f. g 直接 写 
入 Guest OS 的 页 表 中 ,替换 原来 的 映射 g。 

2. 影子 页 表 

影子 页 表 与 MMU 半 虚 拟 化 的 不 同 之 处 在 于 VMM 为 Guest OS 的 每 一 个 页 表 维 护 一 
个 影子 页 表 , 并 将 f g 映射 写 入 影子 页 表 中 ,Guest OS 的 页 表 内 容 保 持 不 变 。 最 后 ,VMM 
将 影子 页 表 写 入 MMU, 

影子 页 表 的 维护 在 时 间 和 空间 上 开销 较 大 。 时 间 开 销 主要 是 由 于 Guest OS 构造 页 表 
时 不 会 主动 通知 VMM,VMM 必须 等 到 Guest OS 发 生 缺 页 时 才 通 过 分 析 缺 页 原因 为 其 补 
全 影子 页 表 。 而 空间 的 开销 主要 体现 在 VMM 需要 支持 多 台 虚 拟 机 同时 运行 ,每 台 虚 拟 机 
的 Guest OS 通常 会 为 其 上 运行 的 每 一 个 进程 创建 一 套 页 表 系 统 , 因 此 影子 页 表 的 空间 开 
销 会 随 着 进程 数量 的 增多 而 迅速 增 大 。 
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为 了 权衡 时 间 开 销 和 空间 开销 ,现在 一 般 采 用 影子 页 表 缓 存 (Shadow Page Table 
Cache) 技 术 , 即 VMM 在 内 存 中 维护 部 分 最 近 使 用 过 的 影子 页 表 , 只 有 当 缓 存 中 找 不 到 影 
子 页 表 时 才 构 建 一 个 新 的 影子 页 表 。 当 前 主要 的 全 虚拟 化 技术 都 采用 了 影子 页 表 缓 存 
技术 。 


7.5.4 VO 虚拟 化 


1/O 虚拟 化 就 是 通过 截获 Guest OS 对 1/0 设备 的 访问 请 求 ,用 软件 模拟 真实 的 硬件 ， 
复 用 有 限 的 外 设 资源 。I/O 虚拟 化 与 CPU 虚拟 化 是 紧密 相关 的 。 例 如 , 当 CPU 支持 硬件 
辅助 虚拟 化 技术 时 ,往往 在 IJVO 方面 也 会 采用 Direct 1/0 等 技术 ,使 CPU 能 直接 访问 外 设 ， 
以 提高 I/O 性 能 。 当 前 1/O 虚拟 化 的 典型 方法 如 下 : 

1. 全 虚拟 化 

VMM 对 网 卡 、 磁 盘 等 关键 设备 进行 模拟 ,以 组 成 一 组 统一 的 虚拟 LI/O 设备 。Guest OS 
对 虚拟 设备 的 1/O 操作 都 会 陷入 VMM 中 ,由 VMM 对 1/0 指令 进行 解析 并 映射 到 实际 物 
理 设备 ,直接 控制 硬件 完成 操作 。 这 种 方法 可 以 获得 较 高 的 性 能 ,而 且 对 Guest OS 是 完全 
透明 的 。 但 VMM 的 设计 复杂 ,难以 应 对 设备 的 快速 更 新 。 

2. 半 虚 拟 化 

半 虚 拟 化 又 叫做 前 端 /后 端 模 拟 。 这 种 方法 在 Guest OS 中 需要 为 虚拟 1/0 设备 安装 
特殊 的 驱动 程序 , 即 前 端 (Front-end Driver), VMM 中 提供 了 简化 的 驱动 程序 , 即 后 端 
(Back-end Driver) 。 前 端 驱动 将 来 自 其 他 模块 的 请 求 通过 VMM 定义 的 系统 调用 与 后 端 驱 
动 通信 ,后 端 驱动 后 会 检查 请 求 的 有 效 性 ,并 将 其 映射 到 实际 物理 设备 ,最 后 由 设备 驱动 程 
序 来 控制 硬件 完成 操作 ,硬件 设备 完成 操作 后 再 将 通知 发 回 前 端 。 这 种 方法 简化 了 VMM 
的 设计 ,但 需要 在 Guest OS 中 安装 驱动 程序 甚至 修改 代码 。 基 于 半 虚 拟 化 的 1/0 虚拟 化 
技术 往往 与 基于 操作 系统 的 辅助 CPU 虚拟 化 技术 相伴 随 , 它 们 都 是 通过 修改 Guest OS 来 
实现 的 。 

3. 软件 模拟 

软件 模拟 即 用 软件 模拟 的 方法 来 虚拟 1/O 设备 , 指 Guest OS 的 1/0 操作 被 VMM 捕 
获 并 转交 给 Host OS 的 用 户 态 进程 ,通过 系统 调用 来 模拟 设备 的 行为 。 这 种 方法 没有 额外 
的 硬件 开销 ,可 以 重用 现 有 驱动 程序 。 但 是 完成 一 次 操作 需要 涉及 多 个 寄存 器 的 操作 ,使 
VMM 要 截获 每 个 寄存 器 访问 并 进行 相应 的 模拟 ,导致 多 次 上 下 文 切换 。 而 且 由 于 要 进行 
模拟 ,因此 性 能 较 低 。 一 般 来 说 ,如 果 在 W/O 方面 采用 基于 软件 模拟 的 虚拟 化 技术 ,其 CPU 
虚拟 化 技术 也 应 采用 基于 模拟 执行 的 CPU 虚拟 化 技术 。 

4. 直接 划分 

直接 划分 是 指 将 物理 1/O 设备 分 配给 指定 的 虚拟 机 ,让 Guest OS 可 以 在 不 经 过 VMM 
或 特权 域 介入 的 情况 下 直接 访问 I/O 设备 。 目 前 与 此 相关 的 技术 有 Intel 的 VT_d, AMD 
的 IOMMU 及 PCLSIG 的 IOV。 这 种 方法 重用 已 有 驱动 ,直接 访问 也 减少 了 虚拟 化 开销 ， 
但 需要 购买 较 多 的 额外 硬件 。 该 技术 与 基于 硬件 辅助 的 CPU 虚拟 化 技术 相对 应 。VMM 
支持 基于 硬件 辅助 的 CPU 虚拟 化 技术 ,往往 会 尽量 采用 直接 划分 的 方式 来 处 理 1/O 〇 。 
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7.6 网 络 虚 拟 化 


网 络 虚拟 化 是 通过 软件 统一 管理 和 控制 多 个 硬件 或 软件 网 络 资源 及 相关 的 网 络 功能 ， 
为 网 络 应 用 提供 透明 的 网 络 环境 。 该 网 络 环境 称 为 虚拟 网 络 ,形成 该 虚拟 网 络 的 过 程 称 为 
网 络 虚拟 化 。 

不 同 应 用 环境 下 ,虚拟 网 络 架构 多 种 多 样 。 不 同 的 虚拟 网 络 架 构 需要 相应 的 技术 作为 
支撑 。 当 前 ,传统 网 络 虚拟 化 技术 已 经 非常 成 熟 ' 如 VPN, VLAN 等 。 而 随 着 云 计 算 的 发 
展 , 很 多 新 的 问题 不 断 涌现 ,对 网 络 虚拟 化 提出 了 更 大 的 挑战 。 服 务 器 虚拟 机 的 优势 在 于 其 
更 加 灵活 、 可 配置 性 更 好 ,可 以 满足 用 户 更 加 动态 的 需求 。 因 此 ,网 络 虚拟 化 技术 也 紧 随 趋 
势 ,满足 用 户 更 加 灵活 、 更 加 动态 的 网 络 结构 的 需求 和 网 络 服务 要 求 ,同时 还 必须 保证 网 络 
的 安全 性 。 

具体 地 说 ,由 于 一 个 虚拟 机 上 可 能 存在 多 个 系统 ,系统 之 间 通 信 就 需要 通过 网 络 ,但 和 
普通 的 物理 系统 间 通 过 实体 网 络 设备 互联 不 同 ,各 个 系统 的 网 络 接 口 也 是 虚拟 的 ,因此 不 能 
直接 通过 实体 网 络 设备 互联 。 同 时 外 部 网 络 又 要 适应 虚拟 机 变化 进行 安全 动态 通信 ,拥有 
合理 授权 、 保 证 数据 不 被 窃听 、 不 被 伪造 成 为 对 网 络 虚 拟 化 技术 提出 的 新 需求 。 

因此 ,在 云 计 算 环境 下 ,网 络 虚拟 化 技术 需要 解决 如 下 问题 : 

(1) 如 何 构建 物理 机 内 部 的 虚拟 网 络 ? 

(2) 外 部 网 络 如 何 动态 调整 以 适应 虚拟 机 不 灵活 变化 的 要 求 ? 

(3) 如 何 确保 虚拟 网 络 环境 的 安全 性 ?如 何 对 物理 机 内 、 外 部 的 虚拟 网 络 进 行 统一 
管理 ? 


7.6.1 传统 网 络 虚拟 化 技术 


传统 的 网 络 虚拟 化 技术 主要 是 指 VPN 和 VLAN 这 两 种 典型 的 传统 网 络 虚拟 化 技术 ， 
对 于 改善 网 络 性 能 ,提高 网 络 安全 性 、 灵 活性 起 到 良好 效果 。 
1. VPN 


虚拟 私有 网 络 (Virtual Private Network, VPN) 是 指 在 公用 网 络 上 建立 专用 网 络 的 技 
术 。 整 个 VPN 网 络 的 任意 两 个 节点 之 间 的 连接 并 没有 传统 专 网 所 需 的 端 到 端的 物理 链 
路 ,而 是 架构 在 公用 网 络 服务 商 所 提供 的 网 络 平台 上 。VPN 实质 上 就 是 利用 加 密 技术 在 公 
网 上 封装 出 一 个 数据 通信 隧道 。 有 了 VPN 技术 ,用 户 无 论 是 在 外 地 出 差 还 是 在 家 中 办 公 ， 
只 要 能 上 因特网 就 能 利用 VPN 非常 方便 地 访问 内 网 资源 。VPN 作为 传统 的 网 络 虚 拟 化 技 
术 , 对 于 提高 网 络 安全 性 、 提 高 网 络 应 用 效率 起 到 良好 作用 。 

2. VLAN 


虚拟 局 域 网 (Virtual Local Area Network,VLAN) 是 一 种 将 局 域 网 设备 从 逻辑 上 划分 
成 一 个 个 网 段 , 从 而 实现 虚拟 工作 组 的 数据 交换 技术 。 应 用 VLAN 技术 ,管理 员 根据 实际 
应 用 需求 把 同一 物理 局 域 网 内 的 不 同 用 户 逻 辑 地 划分 成 不 同 的 广播 域 .每 一 个 VLAN 都 包 
含 一 组 有 着 相同 需求 的 计算 机 工作 站 ,与 物理 上 形成 的 LAN 有 着 相同 的 属性 。 由 于 它 是 
从 逻辑 上 划分 ,而 不 是 从 物理 上 划分 ,因此 同一 个 VLAN 内 的 各 个 工作 站 没有 限制 在 同一 
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个 物理 范围 中 , 即 这 些 工作 站 可 以 在 不 同 物理 LAN 网 段 。 由 VLAN 的 特点 可 知 ,一 个 
VLAN 内 部 的 广播 和 单 播 流量 都 不 会 转发 到 其 他 VLAN 中 ,从 而 有 助 于 控制 流量 减少 设 
备 投资 ,简化 网 络 管理 、 提 高 网 络 的 安全 性 。 


7.6.2 主机 网 络 虚 拟 化 


云 计算 的 网 络 虚拟 化 归根 结 底 是 为 了 主机 之 间 安 全 灵活 地 进行 网 络 通信 ,因而 主机 网 
络 虚拟 化 是 云 计算 的 网 络 虚 拟 化 的 重要 组 成 部 分 。 主 机 网 络 虚 拟 化 通常 与 传统 网 络 虚拟 化 
相 结 合 , 主 要 包括 虚拟 网 卡 、 虚 拟 网 桥 、 虚 拟 端口 聚合 器 。 

1. 虚拟 网 卡 

虚拟 网 卡 就 是 通过 软件 手段 模拟 出 来 在 虚拟 机 上 看 到 的 网 卡 。 虚 拟 机 上 运行 的 操作 系 
统 通过 虚拟 网 卡 与 外 界 通信 。 当 一 个 数据 包 从 Guest OS 发 出 时 ,Guest OS 会 调用 该 虚拟 网 
卡 的 中 断 处 理 程序 ,而 这 个 中 断 处 理 程序 是 模拟 器 模拟 出 来 的 程序 逻辑 。 当 虚拟 网 卡 收 到 一 
个 数据 包 时 , 它 会 将 这 个 包 从 虚拟 机 所 在 物理 网 卡 接收 进来 ,就 好 像 从 物理 机 自己 接收 一 样 。 

2. 虚拟 网 桥 

由 于 一 个 虚拟 机 上 可 能 存在 多 个 Guest OS, 各 个 系统 的 网 络 接 口 也 是 虚拟 的 ,相互 通 
信和 普通 的 物理 系统 间 通 过 实体 网 络 设备 互联 不 同 ,因此 不 能 直接 通过 实体 网 络 设备 互联 。 
这 样 ,虚拟 机 上 的 网 络 接口 可 以 不 需要 经 过 实体 网 络 ,直接 在 虚拟 机 内 部 虚拟 网 桥 VEB 
(Virtual Ethernet Bridges) 进 行 互 联 。 

虚拟 网 桥 (VEB) 上 有 虚拟 端口 (VLAN Bridge Ports) ,虚拟 网 卡 对 应 的 接口 就 是 和 网 
桥 上 的 虚拟 端口 连接 ,这 个 连接 称 为 VSI(Virtual Station Interface, 虚拟 终端 接口 )。VEB 
实际 上 就 是 实现 常规 的 以 太 网 网 桥 功能 ,如 图 7-12 所 示 。 一 般 来 说 ,VEB 用 于 在 虚拟 网 卡 
之 间 进 行 本 地 转发 , 即 负 责 不 同 虚拟 网 卡 间 报 文 的 转发 。 注 意 , VEB 不 需要 通过 探听 
(Snooping) 网 络 流量 来 获知 MAC 地 址 ,因为 它 通 过 诸如 访问 虚拟 机 的 配置 文件 等 手段 来 
获知 虚拟 机 的 MAC 地 址 。 

此 外 ,VEB 也 负责 虚拟 网 卡 和 外 部 交换 机 之 间 的 报 文 传输 ,但 不 负责 外 部 交换 机 本 身 
的 报 文 传输 。 如 图 7-13 所 示 ,1 表示 虚拟 网 卡 和 邻接 交换 机 通信 ,2 表示 虚拟 网 卡 之 间 通 
信 ,3 表示 VEB 不 支持 交换 机 本 身 的 互相 通信 。 





Software VEB 进入 ”外 出 
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图 7-12 VEB 图 7-13 VEB 转发 视图 
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3. 虚拟 端口 聚合 器 

虚拟 以 太 网 端口 聚合 器 (Virtual Ethernet Port Aggregator,VEPA) 将 虚拟 机 上 以 太 口 
聚合 起 来 ,作为 一 个 通道 和 外 部 实体 交换 机 进行 通信 ,以 减少 虚拟 机 上 网 络 功能 负担 。 

VEPA 指 的 是 将 虚拟 机 上 若干 个 VSI 口 汇 聚 起 来 ,交换 机 发 向 各 个 VSI 的 报 文 首先 到 
达 VEPA, 再 由 VEPA 负责 朝 某 个 VSI 转发 。 另 外 
一 方面 ,VSI 所 生成 的 报 文 不 通过 VEB 进行 转发 ， 
而 是 全 部 汇聚 在 一 起 通过 物理 链 路 发 送 到 交换 机 ， 
由 交换 机 完成 转发 ,交换 机 将 报 文 送 回 虚拟 机 或 将 
报 文 转发 到 外 网 。 这 样 既 可 以 利用 交换 机 实现 更 多 
的 功能 (如 安全 策略 、 流 量 监控 统计 ), 又 可 以 减轻 虚 
拟 机 上 的 转发 负担 。 如 图 7-14 所 示 , VEPA 负责 汇聚 三 个 VSI 的 流量 ,再 转发 到 邻接 
桥 上 。 

根据 原来 的 转发 规则 ,一 个 端口 收 到 报 文 后 ,无 论 是 单 播 还 是 广播 ,该 报 文 不 能 再 从 接 
收 端口 发 出 。 由 于 交换 机 和 虚拟 机 内 通过 一 个 物理 链 路 连接 ,要 将 虚拟 机 发 送 来 的 报 文 转 
发 回去 ,就 要 对 网 桥 转发 模型 进行 修订 。 为 此 ,802. 1Qbg 中 在 交换 机 桥 端口 上 增加 了 一 种 
Reflective Relay 模式 。 当 端口 上 支持 该 模式 ,并 且 该 模式 打开 时 ,接收 端口 也 可 以 成 为 潜 
在 的 发 送 端口 。 

如 图 7-15 所 示 ,VEPA 只 支持 虚拟 网 卡 和 邻接 交换 机 之 间 的 报 文 传输 ,不 支持 虚拟 网 
卡 之 间 的 报 文 传输 ,也 不 支持 邻接 交换 机 本 身 的 报 文 传输 。 对 于 需要 获取 流量 监控 防火墙 
或 其 他 连接 桥 上 的 服务 的 虚拟 机 可 以 考虑 连接 到 VEPA 上 。 





图 7-14 VEPA 部 分 


物理 终端 站 


外 出 

















图 7-15 VEPA 转发 图 示 


由 于 VEPA 将 转发 工作 都 推卸 到 了 邻接 桥 上 ,因此 VEPA 就 不 需要 像 VEB 那样 支持 
地 址 学 习 功 能 来 负责 转发 。 实 际 上 .VEPA 的 地 址 表 是 通过 注册 方式 来 实现 的 , 即 VSI E 
动 到 hypervisor 注册 自己 的 MAC 地 址 和 VLAN id. 然 后 hypervisor 更 新 VEPA 的 地 址 
表 , 如 图 7-16 所 示 。 
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图 7-16 VEPA 地 址 表 


7.6.3 网 络 设备 虚拟 化 


随 着 因特网 的 快速 发 展 , 云 计算 兴起 ,需要 的 数据 越 来 越 庞大 ,用 户 的 带宽 需求 不 断 提 
高 。 在 这 样 的 背景 下 ,不 仅 服务 器 需要 虚拟 化 ,网 络 设 备 也 需要 虚拟 化 。 目 前 国内 外 很 多 网 
络 设备 厂商 如 锐 捷 、 思 科 都 生产 出 相应 产品 ,应 用 于 网 络 设备 虚拟 化 ,取得 了 良好 的 效果 。 

网 络 设备 的 虚拟 化 通常 分 成 两 种 形式 ,一 种 是 纵向 分 割 , 另 一 种 是 横向 整合 。 将 多 种 应 
用 加 载 在 同一 个 物理 网 络 上 ,势必 需要 对 这 些 业 务 进行 隔离 ,使 它们 相互 不 干扰 ,这 种 隔离 
称 为 纵向 分 割 。VLAN 就 是 用 于 实现 纵向 隔离 技术 的 。 但 是 ,最 新 的 虚拟 化 技术 还 可 以 对 
安全 设备 进行 虚拟 化 。 例 如 ,可 以 将 一 个 防火 墙 虚拟 成 多 个 防火 墙 ,使 防火 墙 用 户 认为 自己 
独占 该 防火 墙 。 下面 从 虚拟 交换 单元 、 交 换 机 虚拟 化 、 虚 拟 机 迁移 等 方面 探讨 网 络 设备 虚 
拟 化 。 

1. 虚拟 交换 单元 

虚拟 交换 单元 (Virtual Switch Unit, VSU) 技术 将 两 台 核 心 层 交换 机 虚拟 化 为 一 台 ， 
VSU 和 汇聚 层 交换 机 通过 聚合 链 路 连接 ,将 多 台 物 理 设备 虚拟 为 一 台 逻 辑 上 统一 的 设备 ， 
使 其 能 够 实现 统一 的 运行 ,从 而 达到 减 小 网 络 规模 、 提 升 网 络 高 可 靠 性 的 目的 ,如 图 7-17 
所 示 。 

VSU 的 组 网 模式 还 具有 以 下 优势 。 首 先 ,简化 了 网 络 拓扑 。VSU 在 网 络 中 相当 于 一 
台 交 换 机 ,通过 聚合 链 路 和 外 围 设备 连接 ,不 存在 二 层 环 路 . 没 必 要 配置 MSTP 协议 ,各 种 
控制 协议 是 作为 一 台 交 换 机 运行 的 .例如 单 播 路 由 协议 。VSU 作为 一 台 交 换 机 ,减少 了 设 
备 间 大 量 协议 报 文 的 交互 :缩短 了 路 由 收敛 时 间 。 其 次 ,这 种 组 网 模式 的 故障 恢复 时 间 缩 短 
到 了 毫秒 级 。VSU 和 外 围 设备 通过 聚合 链 路 连接 ,如 果 其 中 一 条 成 员 链 路 出 现 故 障 , 切 换 
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到 另 一 条 成 员 链 路 的 时 间 是 50 一 200ms。 而 且 ,VSU 和 外 围 设备 通过 聚合 链 路 连接 , 既 提 
供 了 元 余 链 路 ,又 可 以 实现 负载 均衡 ,充分 利用 所 有 带宽 。 


图 7-17 VSU 虚拟 化 技术 


2. 虚拟 交换 机 

虚拟 交换 机 (vSwitch) 作为 最 早出 现 的 一 种 网 络 虚拟 化 技术 ,已 经 在 Linux Bridge, 
VMWare vSwitch 等 软件 产品 中 实现 。 所 谓 vSwitch 就 是 基于 软件 的 虚拟 交换 ,不 涉及 外 
部 交换 机 。 该 技术 最 大 的 优点 就 是 流量 完全 在 服务 器 上 进行 传递 ,能 够 享受 到 最 大 的 带宽 
和 最 小 的 延迟 。 

如 图 7-18 所 示 ,VEB 和 VEPA 被 看 成 了 网 络 虚拟 化 的 两 个 方向 。VEB 朝 的 是 低 延 
迟 ,流量 在 服务 器 内 平行 流动 ,因此 称 为 东西 流 策略 ; VEPA 朝 的 是 多 功能 方向 ,流量 需要 
在 服务 器 和 交换 机 之 间 传 递 , 因 此 称 为 南北 流 策略 。 

由 于 仅 靠 软件 来 实现 虚拟 网 桥 会 影响 到 服务 器 的 硬件 性 能 ,因此 出 现 了 单一 源 1/O 虚 
拟 化 (SR-IOV) 技 术 , 也 就 是 将 vSwitch 技术 在 网 卡 NIC 上 实现 ,如 图 7-19 所 示 。 
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图 7-18 VEB VS VEPA 图 7-19 SR-IOV 


VEB 直接 嵌入 在 物理 NIC 中 ,负责 虚拟 NIC 之 间 的 报 文 转发 ,也 负责 将 虚拟 NIC 发 送 
的 报 文通 过 VEB 上 的 链 口 发 到 邻接 桥 上 。 对 比 于 虚拟 机 上 通过 软件 实现 交换 ,由 硬件 NIC 
实现 交换 可 以 提高 IO 性 能 ,减轻 了 由 于 软件 模拟 交换 机 而 给 服务 器 CPU 带 来 的 负担 。 
而 且 由 于 是 通过 NIC 硬件 来 实现 报 文 传输 ,因此 提高 了 虚拟 机 和 外 部 网 络 的 交互 性 能 ,如 
图 7-20 所 示 。 

3. 虚拟 机 迁移 

在 大 规模 计算 资源 集中 的 云 计算 数据 中 心 , 以 x86 架构 为 基准 的 不 同 服务 器 资源 通过 
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图 7-20 软件 实现 虚拟 交换 VS 网 卡 实现 硬件 交换 


虚拟 化 技术 将 整个 数据 中 心 的 计算 资源 统一 抽象 出 来 ,形成 可 以 按 一 定 粒度 分 配 的 计算 资 
源 池 , 如 图 7-21 所 示 。 虚 拟 化 后 的 资源 池 屏 蔽 了 各 种 物理 服务 器 的 差异 ,形成 了 统一 的 、 云 
内 部 标准 化 的 逻辑 CPU .逻辑 内 存 、. 逻辑 存 储 空间 ,逻辑 网 络 接口 ,任何 用 户 使 用 的 虚拟 化 
资源 在 调度 、 供 应 ,度量 上 都 具有 一 致 性 。 











图 7-21 虚拟 化 资源 


虚拟 化 技术 不 仅 消除 了 大 规模 异 构 服 务 器 的 差异 化 ,其 形成 的 计算 池 可 以 具有 超级 的 
计算 能 力 , 如 图 7-21 所 示 , 一 个 云 计算 中 心 物理 服务 器 达到 数 万 台 是 一 个 很 正常 的 规模 。 
一 台 物 理 服务 器 上 运行 的 虚拟 机 数量 是 动态 变化 的 ,当前 一 般 是 4 一 20 个 , 某 些 高 密度 的 虚 
拟 机 可 以 达到 100 : 1 的 虚拟 比 ( 即 一 台 物 理 服务 器 上 运行 100 个 虚拟 机 ) ,在 CPU 性 能 不 
断 增强 ( 主 频 提升 ,多核 多 路 ) .当前 各 种 硬件 虚拟 化 (CPU 指令 级 虚拟 化 ,内存 虚 拟 化 、 桥 片 
虚拟 化 、 网 卡 虚拟 化 ) 的 辅助 下 ,物理 服务 器 上 运行 的 虚拟 机 数量 会 迅猛 增加 。 一 个 大 型 
IDC 中 运行 数 十 万 个 虚拟 机 是 可 预见 的 ,当前 的 云 服 务 IDC 在 业务 规划 时 已 经 在 考虑 这 些 
因素 。 

虚拟 化 的 云 中 ,计算 资源 能 够 按 需 扩展 、 灵 活 调度 部 署 ,这 由 虚拟 机 的 迁移 功能 实现 。 
虚拟 化 环境 的 计算 资源 必须 在 二 层 网 络 范围 内 实现 透明 化 迁移 ,如 图 7-22 所 示 。 

透明 环境 不 仅 限于 数据 中 心 内 部 ,对 于 多 个 数据 中 心 共 同 提供 的 云 计算 服务 ,要 求 云 计 
算 的 网 络 对 数据 中 心 内 部 .数据 中 心 之 间 均 实现 透明 化 交换 ,这 种 服务 能 力 可 以 使 客户 分 布 
在 云 中 的 资源 逻辑 上 相对 集中 (如 在 相同 的 一 个 或 数 个 VLAN 内 ) ,而 不 必 关 心 具 体 物 理 位 
置 。 对 云 服务 供应 商 而 言 ,透明 化 网 络 可 以 在 更 大 的 范围 内 优化 计算 资源 的 供应 ,提升 云 计 
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图 7-22 虚拟 机 迁移 


算 服务 的 运行 效率 ,有 效 节 省 资源 和 成 本 。 

虚拟 化 技术 是 云 计 算 的 关键 技术 之 一 ,将 一 台 物 理 服务 器 虚拟 化 成 多 台 逻 辑 虚 拟 机 
CVM) ,不 仅 可 以 大 大 提升 云 计算 环境 IT 计算 资源 的 利用 效率 、 节 省 能 耗 ,同时 虚拟 化 技术 
提供 的 动态 迁移 ,资源 调度 使 得 云 计算 服务 的 负载 可 以 得 到 高 效 管理 ,扩展 , 云 计 算 的 服务 
更 具有 弹性 和 灵活 性 。 

服务 器 虚拟 化 的 一 个 关键 特性 是 虚拟 机 动态 迁移 ,迁移 需要 在 二 层 网 络 内 实现 。 数 据 
中 心 的 发 展 正在 经 历 从 整合 ,虚拟 化 到 自动 化 的 演变 ,基于 云 计算 的 数据 中 心 是 未 来 更 远 的 
目标 。 如 何 简化 二 层 网 络 , 甚 至 是 跨 地 域 二 层 网 络 的 部 署 ,解决 生成 树 无 法 大 规模 部 署 的 问 
题 是 服务 器 虚拟 化 对 云 计 算 网 络 层 面 带 来 的 挑战 ,如 图 7-23 所 示 。 
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BI 7-23 跨 服务 器 的 虚拟 机 迁移 
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7.7 存储 虚拟 化 


虚拟 存储 技术 将 底层 存储 设备 进行 抽象 化 统一 管理 ,向 服务 器 层 屏蔽 存储 设备 硬件 的 
特殊 性 ,而 只 保留 其 统一 的 逻辑 特性 ,从 而 实现 了 存储 系统 集中 、 统 一 而 又 方便 的 管理 。 对 
比 一 个 计算 机 系统 来 说 ,整个 存储 系统 中 的 虚拟 存储 部 分 就 像 计算 机 系统 中 的 操作 系统 ， 
对 下 层 管理 着 各 种 特殊 而 具体 的 设备 ,而 对 上 层 则 提供 相对 统一 的 运行 环境 和 资源 使 用 
方式 。 


7.7.1 存储 虚拟 化 概述 


SNIA(Storage Networking Industry Association, ,存储 网 络 工业 协会 ) 对 存储 虚拟 化 是 
这 样 定义 的 : 通过 将 一 个 或 多 个 目标 (Target) 服 务 或 功能 与 其 他 附加 的 功能 集成 ,统一 提 
供 有 用 的 全 面 功能 服务 。 当 前 存储 虚拟 化 建立 在 共享 存储 模型 基础 之 上 ,如 图 7-24 所 示 ， 
主要 包括 三 个 部 分 ,分 别 是 用 户 应 用 、 存 储 域 和 相关 的 服务 子 系统 。 其 中 ,存储 域 是 核心 ,在 
上 层 主机 的 用 户 应 用 与 部 署 在 底层 的 存储 资源 之 间 建 立 了 普遍 的 联系 ,其 中 包含 多 个 层次 ; 
服务 子 系 统 是 存储 域 的 辅助 子 系统 ,包含 一 系列 与 存储 相关 的 功能 ,如 管理 、 安 全、 备份 ,可 


用 性 维护 及 容量 规划 等 。 
用 户 应 用 
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7-24 SNIA 共享 存储 模型 


存储 虚拟 化 可 以 按 实现 不 同 层次 划分 为 基于 存储 设备 的 虚拟 化 .基于 网 络 的 虚拟 化 和 
基于 主机 的 虚拟 化 ,如 图 7-25 所 示 。 从 实现 的 方式 划分 ,存储 虚拟 化 可 以 分 为 带 内 虚拟 化 
和 带 外 虚拟 化 ,如 图 7-26 所 示 。 
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图 7-25 按 层 次 划分 虚拟 化 
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图 7-26 按 实 现 方式 划分 虚拟 化 


7.7.2 按照 不 同 层次 划分 存储 虚拟 化 


存储 的 虚拟 化 可 以 在 三 个 不 同 的 层面 上 实现 ,包括 : 基于 专用 卷 管理 软件 在 主机 服务 
器 上 实现 基于 主机 的 存储 虚拟 化 ; 利用 专用 的 虚拟 化 引擎 在 存储 网 络 上 实现 基于 网 络 的 存 
储 虚 拟 化 ; 利用 阵列 控制 器 的 固件 (Firmware) 在 磁盘 阵列 上 实现 存储 设备 虚拟 化 。 有 具体 使 
用 哪 种 方法 来 做 ,应 根据 实际 需求 来 决定 。 

1. 基于 主机 的 存储 虚拟 化 

基于 主机 的 存储 虚拟 化 通常 由 主机 操作 系统 下 的 逻辑 卷 管理 软件 (Logical Volume 
Manager) 来 实现 ,如 图 7-27 所 示 。 不 同 操作 系统 的 逻辑 卷 管理 软件 也 不 相同 。 它 们 在 主机 
系统 和 UNIX 服务 器 上 已 经 有 多 年 的 广泛 应 用 ,目前 在 Windows 操作 系统 上 也 提供 类 似 的 
卷 管理 器 。 

基于 主机 的 虚拟 化 的 主要 用 途 是 使 服务 器 的 存储 空间 可 以 跨越 多 个 异 构 的 磁盘 阵列 ， 
常用 于 在 不 同 磁盘 阵列 之 间 做 数据 镜像 保护 。 如 果 仅 仅 需 要 单个 主机 服务 器 (或 单个 集群 ) 
访问 多 个 磁盘 阵列 ,就 可 以 使 用 基于 主机 的 存储 虚拟 化 技术 。 此 时 虚拟 化 的 工作 通过 特 
定 的 软件 在 主机 服务 器 上 完成 ,而 经 过 虚拟 化 的 存储 空间 可 以 跨越 多 个 异 构 的 磁盘 
阵列 。 

优点 : 支持 异 构 的 存储 系统 ,不 占用 磁盘 控制 器 资源 。 

缺点 : 

(1) 占用 主机 资源 ,降低 应 用 性 能 。 
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图 7-27 基于 主机 的 存储 虚拟 化 


(2) 存在 操作 系统 和 应 用 的 兼容 性 问题 。 

(3) 主机 数量 越 多 ,实施 /管理 成 本 越 高 。 

2. 基于 网 络 的 存储 虚拟 化 

基于 存储 网 络 的 虚拟 化 通过 在 存储 域 网 (SAN) 中 添加 虚拟 化 引擎 实现 ,实现 异 构 存储 
系统 整合 和 统一 数据 管理 ( 灾 备 ) ,如 图 7-28 所 示 。 也 就 是 多 个 主机 服务 器 需要 访问 多 个 异 
构 存 储 设备 ,从 而 实现 多 个 用 户 使 用 相同 的 资源 ,或 者 
多 个 资源 对 多 个 进程 提供 服务 。 基 于 存储 网 络 的 虚拟 
化 可 以 优化 资源 利用 率 , 是 构造 公共 存储 服务 设施 的 前 
提 条 件 。 
当前 基于 存储 网 络 的 虚拟 化 已 经 成 为 存储 虚拟 化 
的 发 展 方向 ,这 种 虚拟 化 工作 需要 使 用 相应 的 专用 虚拟 
化 引擎 来 实现 。 目 前 市 场 上 的 SAN Appliances 专用 存 
储 服务 器 ,或 是 建立 在 某 种 专用 的 平台 上 ,或 是 在 标准 
的 Windows UNIX 和 Linux 服务 器 上 配合 相应 的 虚拟 
化 软件 而 构成 。 在 这 种 模式 下 ,因为 所 有 的 数据 访问 操 ”图 7-28 基于 网 络 的 存储 虚拟 化 
作 都 与 SAN Appliances 相关 ,所 以 必须 消除 它 的 单 点 故 
障 。 在 实际 应 用 中 ,SAN Appliance 通常 都 是 元 余 配置 的 。 

优点 : 

(1) 与 主机 无 关 ,不 占用 主机 资源 。 

(2) 能 够 支持 异 构 主 机 、 异 构 存 储 设备 。 

(3) 使 不 同 存储 设备 的 数据 管理 功能 统一 。 

(4) 构建 统一 管理 平台 ,可 扩展 性 好 。 

缺点 : 

(1) 占用 交换 机 资源 。 

(2) 面临 带 内 、 带 外 的 选择 。 
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(3) 存储 阵列 的 兼容 性 需要 严格 验证 。 


CO 原 有 盘 阵 的 高 级 存储 功能 将 不 能 使 用 。 


3. 基于 设备 的 存储 虚拟 化 


基于 设备 的 存储 虚拟 化 用 于 异 构 存 储 系统 整合 和 统一 数据 管理 ( 灾 备 ) ,通过 在 存储 控 
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图 7-29 基于 设备 的 存储 虚拟 化 


(1) 与 主机 无 关 , 不 占用 主机 资源 。 
(2) 数据 管理 功能 丰富 。 

(3) 技术 成 熟 度 高 。 

缺点 : 

(1) 消耗 存储 控制 器 的 资源 。 

(2) 接口 数量 有 限 , 虚 拟 化 能 力 较 弱 。 


制 器 上 添加 虚拟 化 功能 实现 ,应 用 于 中 高 端 存 
储 设备 ,如 图 7-29 所 示 。 具 体 地 说 , 当 有 多 个 主 
机 服务 器 需要 访问 同一 个 磁盘 阵列 时 ,可 以 采 
用 基于 阵列 控制 器 的 虚拟 化 技术 。 此 时 虚拟 化 
的 工作 是 在 阵列 控制 器 上 完成 ,将 一 个 阵列 上 
的 存储 容量 划分 为 多 个 存储 空间 (LUN), 供 不 
同 的 主机 系统 访问 。 

智能 的 阵列 控制 器 提供 数据 块 级 别 的 整 
合 ,同时 还 提供 一 些 附 加 的 功能 ,如 LUN 
Masking、 缓 存 、 即 时 快照 ,数据 复制 等 。 配 合 使 
用 不 同 的 存储 系统 ,这 种 基于 存储 设备 的 虚拟 
化 模式 可 以 实现 性 能 的 优化 。 

优点 : 


(3) 异 构 厂家 盘 阵 的 高 级 存储 功能 将 不 能 使 用 。 
7.7.3 按照 实现 方式 不 同 划 分 存储 虚拟 化 


按照 实现 方式 不 同 存储 虚拟 化 有 两 种 方式 ,分 别 为 带 内 存储 虚拟 化 和 带 外 存储 虚拟 化 。 
带 内 虚拟 化 引擎 位 于 主机 和 存储 系统 的 数据 通道 中 间 ( 带 内 ,In-Band); 带 外 虚拟 化 引擎 是 
一 个 数据 访问 必须 经 过 的 设备 .位 于 数据 通道 之 外 ( 带 外 .Out-of-Band) , 仅 向 主机 服务 器 传 
送 一 些 控制 信息 (Metadata) 来 完成 物理 设备 和 逻辑 卷 之 间 的 地 址 映射 。 


1. 带 内 虚拟 化 


带 内 虚拟 化 引擎 位 于 主机 和 存储 系统 的 数据 通道 中 间 ,控制 信息 和 用 户 数据 都 会 通过 
它 , 而 它 会 将 逻辑 卷 分 配给 主机 ,就 像 一 个 标准 的 存储 子 系统 一 样 。 因 为 所 有 的 数据 访问 都 
会 通过 这 个 引擎 ,所 以 它 可 以 实现 很 高 的 安全 性 ,如 图 7-30 所 示 。 就 像 一 个 存储 系统 的 防 
火 墙 ,只 有 它 允 许 的 访问 才能 够 通行 ,否则 就 会 被 拒绝 。 

带 内 虚拟 化 的 优点 是 可 以 整合 多 种 技术 的 存储 设备 ,安全 性 高 。 此 外 ,该 技术 不 需要 在 
主机 上 安装 特别 的 虚拟 化 驱动 程序 , 比 带 外 的 方式 易于 实施 。 其 缺点 是 当 数 据 访 问 量 异常 
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图 7-30 带 内 虚拟 化 引擎 





大 时 ,专用 的 存储 服务 器 会 成 为 瓶颈 。 

目前 市 场 上 使 用 该 技术 的 产品 主要 有 IBM 的 TotalStorage SVC,HP 的 VA、EVA & 
列 ,HDS 的 TagmaStore,NetApp 的 V-Series 及 H3C 的 IV5000。 

2. 带 外 虚拟 化 

带 外 虚拟 化 引擎 是 一 个 数据 访问 必须 经 过 的 设备 ,通常 利用 Caching 技术 来 优化 性 能 ， 
如 图 7-31 所 示 。 带 外 虚拟 化 引擎 物理 上 不 位 于 主机 和 存储 系统 的 数据 通道 中 间 , 而 是 通过 
其 他 的 网 络 连 接 方式 与 主机 系统 通信 。 于 是 ,在 每 个 主机 服务 器 上 都 需要 安装 客户 端 软件 ， 
或 者 特殊 的 主机 适 配 卡 驱 动 ,这 些 客户 端 软件 接收 从 虚拟 化 引擎 传 来 的 逻辑 卷 结 构 和 属性 
信息 ,以 及 逻辑 卷 和 物理 块 之 间 的 映射 信息 ,在 SAN 上 实现 地 址 寻 址 。 存 储 的 配置 和 控制 
信息 由 虚拟 化 引擎 负责 提供 。 
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图 7-31 带 外 虚拟 化 引擎 
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该 方式 的 优点 是 能 够 提供 很 好 的 访问 性 能 ,并 无 须 对 现存 的 网 络 架 构 进 行 改变 。 其 缺 
点 是 数据 的 安全 性 难以 控制 。 此 外 ,这 种 方式 的 实施 难度 大 于 带 内 模式 ,因为 每 个 主机 都 必 
须 有 一 个 客户 端 程序 。 也 许 就 是 这 个 原因 ,目前 大 多 数 的 SAN Appliances 都 是 采用 带 内 的 
方式 。 

目前 市 场 上 使 用 该 技术 的 产品 主要 有 EMC 的 InVista 和 StoreAge 的 SVM. 


7.8 本 章 小 结 


本 章 介 绍 了 构成 云 计 算 主要 的 关键 技术 一 一 虚拟 化 技术 。 虚 拟 化 技术 是 一 种 调配 计算 
资源 的 方法 , 它 将 应 用 系统 的 不 同 层面 (硬件 .软件 .数据 ` 网 络 存储 等 ) 隔 离 起 来 , 从 而 打破 
服务 器 存储 、 网 络 数据 和 应 用 的 物理 设备 之 间 的 划分 ,实现 架构 动态 化 ,并 达到 集中 管理 和 
动态 使 用 物理 资源 及 虚拟 资源 ,以 提高 系统 结构 的 弹性 和 灵活 性 ,降低 成 本 、 改 进 服务 、 减 少 
管理 风险 等 目标 。 

虚拟 化 技术 从 实现 的 层次 可 以 分 为 基础 设施 化 、 系 统 虚 拟 化 、 软 件 虚拟 化 ; 从 应 用 的 领 
域 可 以 分 为 服务 器 虚拟 化 .存储 虚拟 化 .应 用 虚拟 化 .平台 虚拟 化 、 桌 面 虚拟 化 。 

基础 设施 化 包括 将 相关 硬件 (CPU 内存、 硬盘 声卡、 显卡、 光驱 ?虚拟 化 ` 网 络 虚 拟 化 、 
存储 虚拟 化 和 文件 虚拟 化 。 

系统 虚拟 化 实现 了 操作 系统 和 物理 计算 机 的 分 离 ,使 得 在 一 台 物 理 计 算 机 上 可 以 同时 
安装 和 运行 一 个 或 多 个 虚拟 操作 系统 ,用 户 不 能 感觉 出 显著 差异 。 

软件 虚拟 化 主要 包括 应 用 虚拟 化 和 高 级 语言 虚拟 化 。 

应 用 虚拟 化 把 应 用 对 底层 系统 和 硬件 的 依赖 抽象 出 来 ,从 而 解除 应 用 与 操作 系统 和 硬 
件 的 耦合 关系 。 应 用 程序 运行 在 本 地 应 用 虚拟 化 环境 中 时 ,这 个 环境 为 应 用 程序 屏蔽 了 底 
层 可 能 与 其 他 应 用 产生 冲突 的 内 容 。 

桌面 虚拟 化 将 用 户 的 桌面 环境 与 其 使 用 的 终端 设备 解 耦 ,服务 器 上 存放 的 是 每 个 用 户 
的 完整 桌面 环境 ,用 户 可 以 使 用 不 同 的 终端 设备 通过 网 络 访问 该 桌面 环境 。 

服务 器 虚拟 化 将 一 个 物理 服务 器 虚拟 成 若干 个 服务 器 使 用 。 

网 络 虚拟 化 是 让 一 个 物理 网 络 能 够 支持 多 个 逻辑 网 络 , 虚 拟 化 保留 了 网 络 设计 中 原 有 
的 层次 结构 数据 通道 和 所 能 提供 的 服务 ,使 得 最 终 用 户 的 体验 和 独 享 物理 网 络 一 样 ,同时 
网 络 虚拟 化 技术 还 可 以 高 效 地 利用 网 络 资源 ,如 空间 、 能 源 、 设 备 容量 等 。 

存储 虚拟 化 将 整个 云 计 算 系统 的 存储 资源 进行 统一 整合 管理 ,为 用 户 提供 一 个 统一 的 
存储 空间 。 
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8.1 Docker 容器 概述 


Docker 是 一 个 开源 的 应 用 容器 引擎 ,完全 使 用 沙 箱 机 制 , 相 互 之 间 不 会 有 任何 接口 (类 
似 iPhone 的 app)。 几 乎 没有 性 能 开销 ,可 以 很 容易 地 在 机 器 和 数据 中 心 运行 。 最 重要 的 
是 , 它 的 运行 不 依赖 于 任何 语言 .框架 包括 系统 。 


8.1.1 Docker 容器 的 由 来 


DotCloud 是 一 个 开源 的 基于 LXC 的 高 级 容器 引擎 , 源 代码 托管 在 Github 上 ,基于 go 
语言 并 遵从 Apache2. 0 协议 开源 。Docker A 2013 年 以 来 非常 火热 ,无论 是 从 Github 上 的 
代码 活跃 度 , 还 是 Redhat 在 RHEL6. 5 中 集成 对 Docker 的 支持 ,就 连 Google 的 Compute 
Engine 也 支持 Docker 在 其 之 上 运行 。 

某 款 开源 软件 能 否 在 商业 上 成 功 ,很 大 程度 上 依赖 三 件 事 : 成 功 的 User case, 活 跃 的 
社区 和 一 个 好 故事 。DotCloud 在 自家 的 PaaS 产品 上 建立 在 Docker 之 上 ,长 期 维护 且 有 大 
EHP ,社区 十 分 活跃 , 接 下 来 看 看 Docker 的 故事 。 

(1) 环境 管理 复杂 。 从 各 种 OS 到 各 种 中 间 件 到 各 种 app, 一 款 产品 能 够 成 功 ,作为 开 
发 者 需要 关心 的 东西 太 多 , 且 难 以 管理 ,这 个 问题 几乎 在 所 有 现代 IT 相关 行业 都 需要 面 
对 。 对 此 ,Docker 可 以 简化 部 署 多 种 应 用 实例 工作 ,例如 Web 应用、 后 台 应 用 、 数 据 库 应 
用 、 大 数据 应 用 ,比如 Hadoop 集群 .消息 队列 等 都 可 以 打包 成 一 个 Image 部 署 , 如 图 8-1 
所 示 。 

(2) 云 计算 时 代 的 到 来 。AWS 的 成 功 引导 开发 者 将 应 用 转移 到 Cloud 上 ,解决 了 硬件 
管理 的 问题 ,然而 中 间 件 相关 的 问题 依然 存在 ,Docker 的 出 现 正好 能 帮助 软件 开发 者 开阔 
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图 8-1 容器 环境 


思路 ,尝试 新 的 软件 管理 方法 来 解决 这 个 问题 。 

G) 虚拟 化 手段 的 变化 。Cloud 时 代 采 用 标 配 硬件 来 降低 成 本 ,采用 虚拟 化 手段 来 满 
足 用 户 按 需 使 用 的 需求 及 保证 可 用 性 和 隔离 性 。 然 而 无 论 是 kvm 还 是 Xen, 在 Docker 看 
来 都 是 在 浪费 资源 ,因为 用 户 需 要 的 是 高 效 的 运行 环境 而 非 OS,Guest OS 既 浪 费 资 源 又 难 
于 管理 ,更 加 轻 量 级 的 LXC 更 加 灵活 和 快速 。 

(4) LXC 的 移植 性 。LXC 在 Linux2. 6 的 Kernel 里 就 已 经 存在 了 ,但 是 其 设计 之 初 并 
非 为 云 计算 考虑 的 ,缺少 标准 化 的 描述 手段 和 容器 的 可 迁移 性 ,决定 其 构建 出 的 环境 难以 迁 
移 和 标准 化 管理 (相对 于 kvm 之 类 的 image 和 snapshot) ,Docker 就 在 这 个 问题 上 做 出 了 实 


质 性 的 革新 ,如 图 8-2 所 示 。 
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图 8-2 虚拟 机 和 容器 





面 对 上 面 的 问题 ,Docker 的 设想 是 交付 运行 环境 如 同 海运 ,OS 如 同一 个 货轮 ,每 一 个 
在 OS 基础 上 的 软件 都 如 同一 个 集装箱 ,用 户 可 以 通过 标准 化 手段 自由 组 装运 行 环境 ,同时 
集装箱 的 内 容 可 以 由 用 户 自 定义 ,也 可 以 由 专业 人 员 制 造 。 这 样 , 交 付 一 个 软件 就 是 一 系列 
标准 化 组 件 的 集合 的 交付 ,如 同 乐高 积木 ,用 户 只 需要 选择 合适 的 积木 组 合 ,并 且 在 最 顶端 
署 上 自己 的 名 字 ( 最 后 标准 化 组 件 是 用 户 的 app), 这 也 就 是 基于 Docker 的 PaaS 产品 的 
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8.1.2 Docker 定义 


Docker 是 一 个 开源 的 应 用 容器 引擎 ,让 开发 者 可 以 打包 他 们 的 应 用 及 依赖 包 到 一 个 可 
移植 的 容器 中 ,然后 发 布 到 任何 流行 的 Linux 机 器 上 。Docker 是 一 个 重新 定义 了 程序 开发 
测试 ,交付 和 部 署 过 程 的 开放 平台 。Docker 可 以 称 为 构建 一 次 , 到 处 运行 ,这 就 是 Docker 
提出 的 “Build once. Run anywhere”. 

为 了 更 好 地 认识 Docker, 先 来 了 解 几 个 必 备 词汇 : 镜像 ,容器 和 仓库 。 

1. 镜像 

镜像 是 具有 层次 结构 的 文件 系统 以 及 包含 如 何 运行 容器 的 元 数据 ,Dockerfile 中 的 每 
条 命令 都 会 在 文件 系统 中 创建 一 个 新 的 层次 结构 ,文件 系统 在 这 些 层次 上 构建 起 来 ,镜像 就 
构建 于 这 些 联 合 的 文件 系统 之 上 。 

Docker 镜像 就 是 一 个 只 读 的 模板 ,镜像 可 以 用 来 创建 Docker 容器 。Docker 提供 了 一 
个 很 简单 的 机 制 来 创建 镜像 或 者 更 新 现 有 的 镜像 ,用 户 甚至 可 以 直接 从 其 他 人 那里 下 载 一 
个 已 经 做 好 的 镜像 来 直接 使 用 。 

2. 容器 

容器 是 从 镜像 创建 的 运行 实例 , 它 可 以 被 启动 .开始 .停止 删除。 每 个 容器 都 是 相互 隔 
离 的 、 保 证 安全 的 平台 。 可 以 把 容器 看 做 是 一 个 简易 版 的 Linux 环境 ,Docker 利用 容器 来 
运行 应 用 。 

3. 仓库 

仓库 是 集中 存放 镜像 文件 的 场所 ,仓库 注册 服务 器 (Registry) 上 往往 存放 着 多 个 仓库 ， 
每 个 仓库 中 又 包含 了 多 个 镜像 ,每 个 镜像 有 不 同 的 标签 CTag)。 目 前 ,最 大 的 公开 仓库 是 
Docker Hub, 存 放 了 数量 庞大 的 镜像 供用 户 下 载 。 

Docker 仓库 用 来 保存 我 们 的 images, 当 创建 了 自己 的 image 之 后 就 可 以 使 用 push 命 
令 将 它 上 传 到 公有 或 者 私有 仓库 ,这 样 下 次 要 在 另外 一 台 机 器 上 使 用 这 个 image 时 ,只 需要 
从 仓库 上 pull 下 来 就 可 以 了 ,如 图 8-3 所 示 。 

What Is Docker? 


An apen piatim for distributed applications 





8-3 Docker 的 创建 与 应 用 
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8.1.3 Docker 的 优势 


作为 一 种 新 兴 的 虚拟 化 方式 ,Docker 跟 传统 的 虚拟 化 方式 相 比 具有 众多 的 优势 。 首 
先 ,Docker 容器 的 启动 可 以 在 秒 级 实现 ,这 相 比 传统 的 虚拟 机 方式 要 快 得 多 。 其 次 , Docker 
对 系统 资源 的 利用 率 很 高 ,一 台 主 机 上 可 以 同时 运行 数 千 个 Docker 容器 。 容 器 除了 运行 其 
中 应 用 外 ,基本 不 消耗 额外 的 系统 资源 ,使 得 应 用 的 性 能 很 高 ,同时 系统 的 开销 尽量 小 。 传 
统 虚拟 机 方式 运行 10 个 不 同 的 应 用 就 要 启动 10 个 虚拟 机 ,而 Docker 只 需要 启动 10 个 隔 
离 的 应 用 即 可 。 

具体 来 说 ,Docker 在 如 下 几 个 方面 具有 较 大 的 优势 : 

(1) 更 快速 的 交付 和 部 署 。 

对 开发 和 运 维 人 员 来 说 ,最 希望 的 就 是 一 次 创建 或 配置 ,可 以 在 任意 地 方正 常 运行 。 开 
发 者 可 以 使 用 一 个 标准 的 镜像 来 构建 一 套 开发 容器 ,开发 完成 之 后 , 运 维 人 员 可 以 直接 使 用 
这 个 容器 来 部 署 代码 。Docker 可 以 快速 创建 容器 ,快速 迁 代 应 用 程序 ,并 让 整个 过 程 全 程 
可 见 , 使 团队 中 的 其 他 成 员 更 容易 理解 应 用 程序 是 如 何 创 建 和 工作 的 。Docker 容器 很 轻 很 
快 ,容器 的 启动 时 间 是 秒 级 的 ,大 量 地 节约 了 开发 .测试 .部 署 的 时 间 。 

(2) 更 高 效 的 虚拟 化 。 

Docker 容器 的 运行 不 需要 额外 的 hypervisor 支持 , 它 是 内 核 级 的 虚拟 化 ,因此 可 以 实 
现 更 高 的 性 能 和 效率 。 

(3) 更 轻松 的 迁移 和 扩展 。 

Docker 容器 几乎 可 以 在 任意 的 平台 上 运行 ,包括 物理 机 、 虚 拟 机 、 公 有 云 、 私 有 云 . 个 人 计 
算 机 ,服务器 等 。 这 种 兼容 性 可 以 让 用 户 把 一 个 应 用 程序 从 一 个 平台 直接 迁移 到 另外 一 个 。 

(4) 更 简单 的 管理 。 

使 用 Docker, 只 需要 小 小 的 修改 就 可 以 替代 以 往 大 量 的 更 新 工作 。 所 有 的 修改 都 以 增 
量 的 方式 被 分 发 和 更 新 ,从 而 实现 自动 化 并 且 高 效 的 管理 。 

Docker 与 虚拟 机 比较 如 表 8-1 所 示 。 


表 8-1 Docker 与 虚拟 机 比较 





特性 容器 虚拟 机 
启动 速度 秒 级 分 钟 级 
硬盘 使 用 一 般 为 MB 一 般 为 GB 
性 能 接近 原生 BF 
系统 支持 量 单 击 支持 上 千 容 器 一 般 几 十 个 
隔离 性 安全 隔离 完全 隔离 





8.2 Docker 的 原理 


Docker 核心 解决 的 问题 是 利用 LXC 来 实现 类 似 VM 的 功能 ,从 而 利用 更 加 节省 的 硬 
件 资源 提供 给 用 户 更 多 的 计算 资源 。 同 VM 的 方式 不 同 , LXC 其 实 并 不 是 一 套 硬件 虚拟 
化 方法 (无 法 归属 到 全 虚拟 化 、 部 分 虚拟 化 和 半 虚 拟 化 中 的 任意 一 个 ) ,而 是 一 个 操作 系统 级 
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虚拟 化 方法 ,理解 起 来 可 能 并 不 像 VM 那样 直观 。 所 以 从 虚拟 化 到 Docker 要 解决 的 问题 
出 发 ,看 看 它 是 怎么 满足 用 户 虚拟 化 需求 的 。 

用 户 需要 考虑 虚拟 化 方法 ,尤其 是 硬件 虚拟 化 方法 ,需要 借助 其 解决 的 主要 是 以 下 4 个 
问题 ， 

1. 隔离 性 

每 个 用 户 实 例 之 间 相 互 隔离 , 互 不 影响 。 硬 件 虚拟 化 方法 给 出 的 方法 是 VM, LXC 给 
出 的 方法 是 container, 更 细 一 点 是 kernel namespace。 

2. 可 配额 /可 度量 

每 个 用 户 实例 可 以 按 需 提 供 其 计算 资源 ,所 使 用 的 资源 可 以 被 计量 。 硬 件 虚拟 化 方法 
因为 虚拟 了 CPU, memory 可 以 方便 实现 , LXC 则 主要 是 利用 cgroups 来 控制 资源 。 

3. 移动 性 

用 户 的 实例 可 以 很 方便 地 复制 .移动 和 重建 。 硬 件 虚拟 化 方法 提供 snapshot 和 image 
来 实现 ,Docker( 主 要 ) 利 用 AUFS 实现 。 

4. 安全 性 

这 里 强调 的 是 从 host 主机 的 角度 要 尽量 保护 container。 硬 件 虚拟 化 的 方法 因为 虚拟 
化 的 水 平 比 较 高 ,用 户 进程 都 是 在 KVM 等 虚拟 机 容器 中 翻译 运行 的 。 然 而 对 于 LXC, 用 
户 的 进程 是 lxc-start 进程 的 子 进 程 ,只 是 在 Kernel 的 namespace 中 隔离 的 ,因此 需要 一 些 
kernel 的 patch 来 保证 用 户 的 运行 环境 不 会 受到 来 自 host 主机 的 恶意 入 侵 , dotcloud( 主 要 
是 ) 利 用 kernel grsec patch 解决 。 














8.2.1 Linux Namespace(ns) 


LXC 所 实现 的 隔离 性 主要 是 来 自 kernel 的 namespace, 其 中 pid、net,ipc、mnt,uts 等 
namespace 将 container 的 进程 .网 络 .消息 .文件 系统 和 hostname 隔离 开 。 

1. pid namespace 

之 前 提 到 用 户 的 进程 是 lxc-start 进程 的 子 进程 ,不 同 用 户 的 进程 就 是 通过 pid 
namespace 隔离 开 的 , 且 不 同 namespace 中 可 以 有 相同 PID。 容 器 进程 具有 以 下 特征 : 

(1) 每 个 namespace 中 的 pid 有 自己 的 pid=1 的 进程 (类 似 /sbin/init 进程 ) 。 

(2) 每 个 namespace 中 的 进程 只 能 影响 自己 的 同一 个 namespace 或 子 namespace 中 的 
进程 。 

(3) 因为 /proc 目录 包含 正在 运行 的 进程 .所 以 在 container 中 的 pseudo-filesystem 的 
/proc 目录 只 能 看 到 自己 namespace 中 的 进程 。 

(4) 因为 namespace fù iF Hk £, 父 namespace 可 以 影响 子 namespace 的 进程 ,所 以 子 
namespace 的 进程 可 以 在 父 namespace 中 看 到 ,但 是 具有 不 同 的 pid。 

正 是 因为 以 上 的 特征 ,所 有 的 LXC 进程 在 Docker 中 的 父 进程 为 docker 进程 ,每 个 Ixe 
进程 具有 不 同 的 namespace。 同 时 由 于 允许 嵌 套 ,因此 可 以 很 方便 地 实现 LXC in LXC, 

2. net namespace 


有 了 pid namespace, 每 个 namespace 中 的 pid 能 够 相互 隔离 ,但 是 网 络 端口 还 是 共享 
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host 的 端口 。 网 络 隔离 是 通过 net namespace 实现 的 ,每 个 net namespace 有 独立 的 
network devices, IP addresses, IP routing tables,/proc/net 目录 。 这 样 , 每 个 container 的 
网 络 就 能 隔离 开 来 。 

LXC 在 此 基础 上 有 5 种 网 络 类 型 ,Docker 默认 采用 veth 的 方式 将 container 中 的 虚拟 
网 卡 同 host 上 的 一 个 docker bridge 连接 在 一 起 。 

3. ipc namespace 

container 中 的 进程 交互 还 是 采用 Linux 常见 的 进程 间 交 互 方法 (Interprocess 
Communication, IPC), 包括 常见 的 信号 量 . 消息 队列 和 共享 内 存 。 然 而 同 VM 不 同 ， 
container 的 进程 间 交 互 实际 上 还 是 host 上 具有 相同 pid namespace 中 的 进程 间 交 互 , 因 此 
需要 在 IPC 资源 申请 时 加 入 namespace 信息 (每 个 IPC 资源 有 一 个 唯一 的 32 位 ID). 

4. mnt namespace 


类 似 chroot, 将 一 个 进程 放 到 一 个 特定 的 目录 执行 。mnt namespace 允许 不 同 
namespace 的 进程 看 到 的 文件 结构 不 同 ,这 样 每 个 namespace 中 的 进程 所 看 到 的 文件 目录 
就 被 隔离 开 了 。 同 chroot 不 同 ,每 个 namespace 中 的 container 在 /proc/mounts 的 信息 只 
包含 所 在 namespace 的 mount point。 








5, uts namespace 

UTS( UNIX Timesharing System) namespace 允许 每 个 container 拥有 独立 的 
hostname 和 domain name', 使 其 在 网 络 上 可 以 被 视 作 一 个 独立 的 节点 而 非 Host 上 的 一 个 
进程 。 

6. user namespace 

每 个 container 可 以 有 不 同 的 user 和 group id, 也 就 是 说 可 以 以 container 内 部 的 用 户 
在 container 内 部 执行 程序 而 非 Host 上 的 用 户 。 

有 了 以 上 6 种 namespace M it FE, A t, IPC, XIRA UTS 和 用 户 角度 的 隔离 ， 
container 就 可 以 对 外 展现 出 一 个 独立 计算 机 的 能 力 ,并 且 不 同 container 从 OS 层面 实现 了 
隔离 。 


8.2.2 Control Groups(cgroups) 


cgroups 实现 了 对 资源 的 配额 和 度量 。cgroups 的 使 用 非常 简单 ,提供 类 似 文件 的 接口 ， 
在 /cgroup 目录 下 新 建 一 个 文件 夹 即 可 新 建 一 个 group ,在 此 文件 夹 中 新 建 task 文件 ,并 将 
pid 写 入 该 文件 即 可 实现 对 该 进程 的 资源 控制 。 具 体 的 资源 配置 选项 可 以 在 该 文件 夹 中 新 
ÆT subsystem, { F R BE wi A). {资源 项 } 是 典型 的 配置 方法 ,如 memory. usage_in_bytes 
就 定义 了 该 group 在 subsystem memory 中 的 一 个 内 存 限制 选项 。 
另外 ,cgroups 中 的 subsystem 可 以 随意 组 合 , 一 个 subsystem 可 以 在 不 同 的 group 中 ， 
也 可 以 一 个 group 包含 多 个 subsystem, 也 就 是 说 一 个 subsystem。 
cgroups 可 以 限制 subsystem 中 的 资源 : 
。 cpu: 在 cgroup 中 ,并 不 能 像 硬件 虚拟 化 方案 一 样 能 够 定义 CPU 能 力 ,但 是 能 够 定 
义 CPU 轮转 的 优先 级 ,因此 具有 较 高 CPU 优先 级 的 进程 会 更 可 能 得 到 CPU 运算 。 
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通过 将 参数 写 入 cpu. shares, 即 可 定义 该 cgroup 的 CPU 优先 级 。 这 里 是 一 个 相对 权 
重 , 而 非 绝 对 值 。 当 然 , 在 cpu 这 个 subsystem 中 还 有 其 他 可 配置 项 ,手册 中 有 详细 说 明 。 

。 cpusets: cpusets 定义 了 有 几 个 CPU 可 以 被 这 个 group 使 用 ,或 者 哪 几 个 CPU 可 
以 供 这 个 group 使 用 。 在 某 些 场景 下 , 单 CPU 绑 定 可 以 防止 多 核 间 缓存 切换 ,从 而 

。 memory; 内 存 相关 的 限制 。 

。 blkio: block IO 相关 的 统计 和 限制 ,byte/operation 统计 和 限制 (IOPS 等 ), 读 写 速 
度 限制 等 。 但 是 这 里 主要 统计 的 都 是 同步 IDnet_cls、cpuacct devices ,freezer 等 其 
他 可 管理 项 。 

















8.2.3 Linux 容器 (LXC) 





借助 于 namespace 的 隔离 机 制 和 cgroup 限额 功能 ,LXC 提供 了 一 套 统一 的 API 和 工 
具 来 建立 和 管理 container。LXC 利用 了 如 下 kernel 的 features; 

Kernel namespaces (ipc, uts, mount, pid, network and user) 

Apparmor and SELinux profiles 

Seccomp policies 

Chroots (using pivot_root) 

Kernel capabilities 

Control groups (cgroups) 

LXC 向 用 户 屏蔽 了 以 上 kernel 接口 的 细节 ,提供 了 如 下 的 组 件 大 大 简化 了 用 户 的 开发 
和 使 用 工作 : 

The liblxc library 

Several language bindings (python3, lua and Go) 


A set of standard tools to control the containers 
Container templates 


LXC 旨 在 提供 一 个 共享 kernel 的 OS 级 虚拟 化 方法 ,在 执行 时 不 用 重复 加 载 Kernel, 
且 container 的 kernel 与 host 共享 ,因此 可 以 大 大 加 快 container 的 启动 过 程 ,并 显著 减少 
内 存 消耗 。 在 实际 测试 中 ,基于 LXC 的 虚拟 化 方法 的 IO 和 CPU 性 能 几乎 接近 baremetal 
的 性 能 ,大 多 数 数据 相 比 Xen 具有 优势 。 当 然 , 对 于 KVM 这 种 也 是 通过 Kernel 进行 隔离 
的 方式 ,性 能 优势 或 许 不 是 那么 明显 ,主要 还 是 内 存 消耗 和 启动 时 间 上 的 差异 。 在 参考 文献 
[5 中 提 到 了 利用 iozone 进行 Disk IO 吞吐 量 测试 KVM 反而 比 LXC 要 快 ,而 且 笔者 在 
device mapping driver 下 重 现 同 样 case 的 实验 中 也 确实 能 得 出 如 此 结论 。 参 考 文献 从 网 络 
虚拟 化 中 虚拟 路 由 的 场景 (网 络 IO 和 CPU 角度 ) 比 较 了 KVM 和 LXC, 得 到 的 结论 是 
KVM 在 性 能 和 隔离 性 的 平衡 上 比 LXC 更 优秀 。KVM 在 吞吐 量 上 略 差 于 LXC, 但 CPU 的 
隔离 可 管理 项 比 LXC 更 明确 。 

关于 CPU Disk IO、network IO 和 memory 在 KVM 和 LXC 中 的 比较 还 是 需要 更 多 的 
实验 才能 得 出 可 信服 的 结论 。 


8.2.4 AUFS 











Docker 对 容器 的 使 用 基本 上 是 建立 在 LXC 基础 之 上 的 ,然而 LXC 存在 的 问题 是 难以 
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移动 ,难以 通过 标准 化 的 模板 制作 重建、 复制 和 移动 container。 在 以 VM 为 基础 的 虚拟 化 
手段 中 , 有 image 和 snapshot 可 以 用 于 VM 的 复制 .重建 及 移动 的 功能 。 想 要 通过 
container 来 实现 快速 的 大 规模 部 署 和 更 新 ,这 些 功 能 不 可 或 缺 。Docker 正 是 利用 AUFS 
来 实现 对 container 的 快速 更 新 .在 docker0.7 中 引入 了 storage driver, 支 持 AUFS, VFS, 
device mapper, H Jy BTTRFS 及 引入 ZFS 提供 了 可 能 。 但 是 除了 AUFS, 其 他 都 未 经 过 
DotCloud 的 线 上 使 用 ,因此 还 是 从 AUFS 角度 学 习 。 

AUFS(AnotherUnionFS) 是 一 种 Union FS, 简 单 来 说 就 是 支持 将 不 同 目录 挂 载 到 同一 
个 虚拟 文件 系统 下 (unite several directories into a single virtual filesystem) 的 文件 系统 。 
更 进一步 ,AUFS 支持 为 每 一 个 成 员 目 录 (AKA branch) 设 定 readonly, readwrite 和 
writeout-able 权限 ,同时 AUFS 里 有 一 个 类 似 分 层 的 概念 ,对 readonly 权限 的 branch 可 以 
逻辑 上 进行 修改 ( 增 量 的 ,不 影响 readonly 部 分 )。 通 常 Union FS 有 两 个 用 途 : 一 是 可 以 实 
现 不 借助 LVM,RAID 将 多 个 disk 挂 到 一 个 目录 下 ; 二 是 将 一 个 readonly 的 branch 和 一 
个 writeable 的 branch 联合 一 起 ,live CD 正 是 基于 此 可 以 允许 在 OS image 不 变 的 基础 上 
让 用 户 进行 一 些 写 操作 。Docker 在 AUFS 上 构建 的 container image 也 正 是 如 此 , 接 下 来 
以 启动 container 中 的 Linux 为 例 介绍 Docker 在 AUFS 特性 的 运用 。 

典型 的 Linux 启动 运行 需要 两 个 FS: bootfs 十 rootfs( 从 功能 角度 而 非 文件 系统 角度 )， 
如 图 8-4 所 示 。 

Bootfs(boot file system) 主 要 包含 bootloader 和 kernel. bootloader 主要 功能 是 引导 加 
载 内 核 kernel, 当 boot 成 功 后 kernel 被 加 载 到 内 存 中 ,bootfs 就 被 umonut 了 。Rootfs 
(root file system) 包 含 的 就 是 典型 Linux 系统 中 /dev、/proc、/bin、/etc 等 标准 目录 和 文件 。 

由 此 可 见 , 对 于 不 同 的 Linux 发 行 版 ,bootfs 基本 是 一 致 的 ,rootfs 会 有 差别 ,因此 不 同 
的 发 行 版 可 以 共用 bootfs, 如 图 8-5 所 示 。 


























图 8-4 镜像 的 层次 图 8-5 共用 底层 镜像 


典型 的 Linux 在 启动 后 ,首先 将 rootfs 设置 为 readonly, 进 行 一 系列 的 检查 ,然后 将 其 
切换 为 readwrite 供用 户 使 用 。 在 Docker 中 ,起初 也 是 将 rootfs 以 readonly 方式 加 载 并 检 
查 , 接 下 来 利用 union mount 将 一 个 readwrite 文件 系统 挂 载 在 readonly 的 rootfs 之 上 ,并 
且 人 允许 再 次 将 下 层 的 file system 设 定 为 readonly, 并 且 向 上 闭 加 ,这 样 一 组 readonly 和 一 个 
writeable 的 结构 构成 一 个 container 的 运行 目录 .每 一 个 被 称 作 一 个 layer, 如 图 8-6 所 示 。 

得 益 于 AUFS 的 特性 .每 一 个 对 readonly 层 文件 /目录 的 修改 都 只 会 存在 于 上 层 的 
writeable 中 。 这 样 , 由 于 不 存在 竞争 ,多 个 container 可 以 共享 readonly 的 layer, 因此 
docker 将 readonly 的 层 称 作 image。 对 于 container mi = ,整个 rootfs 都 是 readwrite 的 ,但 
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事实 上 所 有 的 修改 都 写 入 最 上 层 的 writeable 层 中 ,image 不 保存 用 户 状态 ,可 以 用 于 模板 、 
EE 建 和 复制 ,如 图 8-7 所 示 。 


he 
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图 8-6 镜像 层 的 受 加 图 8-7 容器 共享 readonly 的 layer 


EEH image 依赖 下 层 的 image, A JE Docker 中 把 下 层 的 image 称 作 父 image, 没 有 
image 的 image 称 作 base image, 如 图 8-8 Aras. 

因此 , 想 要 从 一 个 image 启动 container, docker 会 先 加 载 其 父 image 直到 base image, 
用 户 的 进程 运行 在 writeable 的 layer 中 .所 有 parent image 中 的 数据 信息 及 ID、 网 络 和 
LXC 管理 的 资源 限制 等 具体 container 的 配置 构成 一 个 Docker 概念 上 的 container, 如 
图 8-9 所 示 。 
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图 8-8 镜像 层次 的 依赖 图 8-9 镜像 层次 关系 














由 此 可 见 ,采用 AUFS 作为 container 的 文件 系统 ,能 够 提供 如 下 好 处 : 

(1) 节省 存储 空间 。 多 个 container 可 以 共享 base image 存储 。 

(2) 快速 部 署 。 部 署 多 个 container. base image 可 避免 多 次 拷贝 。 

(3) 内 存 更 省 。 多 个 container 共享 base image. 以 及 OS 的 disk 缓存 机 制 , 多 个 
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container 中 的 进程 命中 缓存 内 容 的 几率 大 大 增加 。 

(4) 升级 方便 。 相 比 于 copy-on-write 类 型 的 FS,base-image 也 是 可 以 挂 为 writeable 
的 ,可 以 通过 更 新 base image 而 一 次 性 更 新 其 上 的 container。 

(5) 允许 在 不 更 改 base-image 的 同时 修改 其 目录 中 的 文件 。 所 有 写 操作 都 发 生 在 最 上 
层 的 writeable 层 中 ,这 样 可 以 大 大 增加 base image 能 共享 的 文件 内 容 。 
以 上 的 (1) 一 (3) 条 可 以 通过 copy-on-write 的 FS 实现 ,(4) 可 以 利用 其 他 的 union 
mount 方式 实现 ,(5) 只 有 AUFS 实现 的 很 好 。 这 也 是 Docker 开始 就 建立 在 AUFS 之 上 的 
原因 。 

由 于 AUFS 并 不 会 进入 Linux 主干 ,同时 对 内 核 kernel 要 求 比较 高 ,因此 在 Radhat T 
程 师 的 帮助 下 ,在 Docker 0. 7 版 本 实现 了 driver 机 制 。AUFS 只 是 其 中 的 一 个 driver, Æ 
RHEL 中 采用 的 则 是 Device Mapper 的 方式 实现 的 container 文件 系统 。 











8.2.5 Grsec 


Grsec 是 Linux kernel 安全 相关 的 patch, 用 于 保护 host 防止 非法 入 侵 。 由 于 其 并 不 是 
Docker 的 一 部 分 ,因此 只 进行 简单 的 介绍 。 

Grsec 主要 从 以 下 4 个 方面 保护 进程 不 被 非法 入 侵 : 

C) 随机 地 址 空间 。 进 程 的 堆 区 地 址 是 随机 的 。 

(2) 用 只 读 的 memory management unit 来 管理 进程 流程 , 堆 区 和 栈 区 内 存 只 包含 数据 
结构 /函数 /返回 地 址 和 数据 ,是 non-executeable, 

(3) 审计 和 Log 可 疑 活动 。 

(4) 编译 期 的 防护 。 

安全 永远 是 相对 的 ,这 些 方法 只 是 告诉 我 们 可 以 从 这 些 角度 考虑 container 类 型 的 安全 
问题 可 以 关注 的 方面 。 


8.3 Docker 技术 发 展 与 应 用 


8.3.1 Docker 解决 的 问题 


云 计算 、 大 数据 移动 技术 的 快速 发 展 ,加 之 企业 业务 需求 的 不 断 变 化 ,导致 企业 架构 要 
随时 更 改 以 适合 业务 需求 , 跟 上 技术 更 新 的 步伐 。 毫 无 疑问 ,这 些 重担 都 将 压 在 企业 开发 人 
员 身 上 。 团 队 之 间 如 何 高 效 协 调 ,快速 交付 产品 ,快速 部 署 应 用 ,以 及 满足 企业 业务 需求 是 
开发 人 员 急 需 解决 的 问题 。Docker 技术 恰好 可 以 帮助 开发 人 员 解 决 这 些 问 题 。 

为 了 解决 开发 人 员 和 运 维 人 员 之 间 的 协作 关系 ,加 快 应 用 交付 速度 , 越 来 越 多 的 企业 引 
入 了 DevOps 这 一 概念 。 但 是 ,传统 的 开发 过 程 中 ,开发 .测试 . 运 维 是 三 个 独立 运作 的 团 
队 , 团 队 之 间 沟 通 不 畅 ,开发 运 维 之 间 冲 突 时 有 发 生 ,导致 协作 效率 低下 ,产品 交付 延迟 , 影 
响 了 企业 的 业务 运行 。Docker 技术 将 应 用 以 集装箱 的 方式 打包 交付 ,使 应 用 在 不 同 的 团队 
中 共享 ,通过 镜像 的 方式 应 用 可 以 部 署 于 任何 环境 中 。 这 样 避免 了 各 团队 之 间 协 作 问 题 的 
出 现 ,成 为 企业 实现 DevOps 目标 的 重要 工具 。 以 容器 方式 交付 的 Docker 技术 支持 不 断 地 
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开发 迭代 ,大 大 提升 了 产品 开发 和 交付 速度 。 

此 外 ,与 通过 Hypervisor 把 底层 设备 虚拟 化 的 虚拟 机 不 同 , Docker 直接 移植 于 Linux 
内 核 之 上 ,通过 运行 Linux 进程 将 底层 设备 虚拟 隔离 ,这样 系统 性 能 的 损耗 也 要 比 虚拟 机 低 
得 多 ,几乎 可 以 忽略 。 同 时 ,Docker 应 用 容器 的 启 停 非常 高 效 , 可 以 支持 大 规模 的 分 布 系统 
的 水 平 扩展 ,真正 给 企业 开发 带 来 福音 。 


8.3.2 Docker 的 未 来 发 展 


任何 一 项 新 技术 的 出 现 都 需要 一 个 发 展 过 程 ,比如 云 计 算 被 企业 所 接受 用 了 将 近 5 年 
左右 的 时 间 ,OpenStack 技术 也 经 历 了 两 三 年 才 受 到 人 们 的 认可 。 因 此 ,虽然 Docker 技术 
发 展 很 快 ,但 技术 还 不 够 成 熟 , 对 存储 的 灵活 支持 、 网 络 的 开销 和 兼容 性 方面 还 存在 限制 ,这 
是 Docker 没有 被 企业 大 范围 使 用 的 一 个 主要 原因 。 另 外 一 个 原因 是 企业 文化 是 否 与 
DevOps 运动 一 致 ,只 有 企业 支持 DevOps 才能 更 大 地 发 挥 Docker 的 价值 。 最 后 一 个 原因 
就 是 安全 性 问题 。Docker 对 于 Linux 这 一 层 的 安全 隔离 还 有 竺 改进, 才能 进一步 得 到 企业 
的 认可 。 惠 普 刘 艳 凯 认为 ,这 也 是 Docker 需要 在 下 一 步 中 改进 的 一 方面 。 


8.3.3 Docker 技术 的 局 限 


(1) 网 络 限制 。 容 器 网 络 (Docker Network) 让 用 户 可 以 方便 地 在 同一 主机 下 对 容器 进 
行 网 络 连 接 。 加 上 一 些 其 他 的 工作 ,就 可 以 跨 主机 使 用 县 加 网 络 功能 。 然 而 ,也 就 到 此 为 止 
了 。 网 络 配置 操作 是 受 限 的 ,而 且 到 目前 为 止 可 以 说 这 些 手 段 都 是 人 工 的 。 容 器 脚本 化 可 
以 规模 配置 网 络 ,给 网 络 定义 必须 增加 预 分 配 实例 ,每 次 提供 容器 网 络 时 还 需要 额外 步骤 ， 
这 容易 引起 错误 。 

(2) 库 控制 受 限 。 库 已 经 成 为 任何 容器 会 话 的 中 心 议题 。 公 共 库 是 最 有 价值 的 ,因为 
它 贡 献 了 大 量 的 预 置 容 器 ,节省 了 许多 的 配置 时 间 。 然 而 ,在 沙 盒 里 使 用 它 是 有 风险 的 。 在 
不 知道 谁 及 如 何 创 建 镜像 的 情况 下 ,可 能 会 存在 任意 数量 的 有 意 或 无 意 的 稳定 性 和 安全 性 
风险 。 对 于 企业 来 说 ,有 必要 建立 和 维护 一 个 私有 库 , 这 个 库 的 建立 挑战 不 大 ,但 管理 是 一 
个 问题 。 

(3) 没有 清晰 的 审计 跟踪 。 提 供 容器 是 很 简单 的 ,但 知道 提供 容器 的 时 间 、 原 因 、 方 式 
以 及 提供 方 却 不 容易 。 因 此 ,在 提供 容器 之 后 ,难以 掌握 出 于 审计 目的 的 记录 。 

(4) 运行 实例 的 低 可 见 性 。 如 果 没 有 经 过 深思 熟 虑 的 行动 ,实例 提供 后 很 难 接触 到 运 
行 容器 的 对 象 ,也 很 难 知道 哪些 应 该 出 现在 那里 ,哪些 不 应 该 出 现在 那里 。 





8.4 ”本 章 小 结 


本 章 介 绍 了 Docker 容器 相关 的 概念 优势 、 由 来 和 实现 原理 。 阅 述 了 Docker 是 一 个 开 
源 的 应 用 容器 引擎 ,完全 使 用 沙 箱 机 制 ,相互 之 间 不 会 有 任何 接口 。 
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Web 2.0 是 相对 Web 1.0 的 新 一 类 因特网 应 用 的 统称 。Web 1. 0 的 主要 特点 在 于 用 
户 通过 浏览 器 获取 信息 。Web 2. 0 则 更 注重 用 户 的 交互 作用 ,用 户 既是 网 站 内 容 的 浏览 者 ， 
也 是 网 站 内 容 的 制造 者 。 因 特 网 上 的 每 一 个 用 户 不 再 仅仅 是 因特网 的 读者 ,同时 也 成 为 因 
特 网 的 作者 ; 不 再 仅仅 是 在 因特网 上 冲浪 ,同时 也 成 为 波浪 的 制造 者 ; 在 模式 上 由 单纯 的 
“ 读 ” 向 “ 写 ” 及 “共同 建设 ”发展 ; 由 被 动 地 接收 因特网 信息 向 主动 创造 因特网 信息 发 展 。 当 
前 , Web 2. 0 成 为 构成 云 计算 的 关键 技术 。 





9.1 Web 2.0 产生 背景 和 定义 


9.1.1 Web 2.0 产 生 背 景 





因特网 迅猛 发 展 , 正 在 经 历 着 重大 变革 , Web 2.0 在 这 样 的 时 代 背 景 之 下 诞生 。 

1. 因特网 质 的 变化 引发 升级 换代 

因特网 用 户 量 不 断 增多 ,成 员 扩充 到 一 定 阶段 必然 引发 质 的 变化 。 因 特 网 正在 经 历 重 
大 的 变革 ,正在 升级 换代 ,不 仅仅 单纯 是 技术 上 的 ,而 且 包 括 因特网 社会 体制 的 变化 ,笼统 地 
将 其 称 为 Web 2.0( 因 特 网 2. 0) 。 社 会 体系 的 变化 是 深层 次 的 变化 ,将 引起 生产 关系 和 生 
产 力 的 变化 ,从 而 激发 出 更 高 的 效率 和 巨大 的 财富 。 

2. 因特网 用 户 强劲 的 个 性 独立 和 社会 化 需求 

因特网 用 户 需求 和 行为 一 直 是 因特网 产业 所 关注 的 重心 。 个 性 独立 和 社会 化 是 今天 因 
特 网 用 户 日 益 深 化 的 需求 ,也 是 未 来 不 可 阻挡 的 趋势 。 并 且 个 性 独立 是 社会 化 的 前 提 。 
Web 2.0 的 本 质 是 社会 化 的 因特网 ,是 要 重 构 过 去 少数 人 主导 的 集中 控制 式 的 体系 而 更 多 
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关注 个 体 以 及 在 个 体 基 础 上 形成 的 社 群 ,并 在 充分 激发 释放 个 体能 量 的 基础 上 带动 整个 体 
系 的 增长 。 

1) 个 性 独立 起 因 

个 性 独立 是 独立 的 人 的 基本 需求 ,会 延伸 到 整个 网 络 社会 中 ,而 个 性 独立 今天 爆发 出 来 
的 原因 在 于 ; 技术 和 理念 的 发 展 使 得 因特网 用 户 自我 呈现 表达 的 门槛 降低 ; 因特网 用 户 需 
求 在 深化 ,在 很 多 基本 需求 被 满足 以 后 ,有 了 社会 交往 和 个 性 表达 的 深入 需求 ; 越 来 越 多 的 
人 在 网 上 表达 出 自己 。 

2) 社会 化 起 因 

随 着 因特网 用 户 的 增多 ,相互 就 会 形成 各 种 隐 性 的 (看 不 见 的 )、 显 性 的 (看 得 见 的 ) 千 丝 
万 缕 的 联系 。 今 天 和 未 来 是 一 个 开放 的 社会 ,一 个 趋 于 真实 社会 的 社会 ,今天 的 社会 学 理论 
(例如 六 度 分 隔 理论 及 社会 资本 、 社 会 性 网 络 ) 同样 也 在 因特网 社会 中 得 到 实践 和 验证 ,并 扒 
动 网 络 社会 的 和 谐 ,而 今天 的 因特网 社会 和 商业 体制 也 在 社会 化 的 浪潮 中 开始 升级 换代 。 

3. 因特网 创新 应 用 和 创新 思考 的 积累 

公众 因特网 的 商业 发 展 经 历 了 若干 年 , 留 给 今天 从 业者 的 思考 就 是 ; 为 什么 有 些 因 特 
取得 了 非凡 的 成 功 ,而 有 些 因特网 公司 却 消失 了 或 正在 苦 苦 挣扎 ? 这些 成 功 的 因 特 
成 功 的 决定 性 因素 是 什么 ? 还 有 一 些 新 涌现 的 现象 ,例如 博客 (Blog) 在 莲 勃 的 发 展 ， 
一 些 新 的 创新 应 用 的 轻 量 型 公司 在 给 用 户 带 来 非凡 的 体验 。 而 这 些 似乎 都 有 一 些 共同 

















这 都 是 要 思考 的 问题 ,到 2004 年 这 些 创新 的 思考 的 片段 汇聚 在 了 一 起 ,逐渐 在 讨论 中 
形成 了 系统 的 理论 和 思想 体系 ,并 不 断 被 认识 思考、 完善 和 应 用 ,这 个 系统 的 理论 和 思想 体 
系 就 是 Web 2. 0。 








9.1.2 Web 2.0 的 概念 


Web 2. 0 是 什么 ? 很 多 人 在 说 ,又 好 像 所 有 的 人 都 无 法 说 清 。 可 以 肯定 的 是 , Web 2.0 
不 是 一 种 单纯 的 技术 变革 ,不 是 一 种 简单 的 诸如 C2C IM 这 样 可 以 描述 出 来 的 相对 独立 的 
服务 或 应 用 。Web 2.0 目前 没有 一 个 统一 的 定义 , 它 只 是 一 个 符号 ,表明 的 是 正在 变化 中 的 
因特网 ,这 些 变化 相辅相成 ,彼此 联系 在 一 起 才 促使 因特网 出 现今 天 的 模样 , 才 让 社会 性 .用 
户 、 参 与 和 创作 浮 到 表面 成 为 因特网 文化 的 中 坚 力 量 并 表征 了 未 来 。 
因特网 协会 对 Web 2.0 的 定义 是 : Web 2. 0 是 因特网 的 一 次 理念 和 思想 体系 的 升级 换 
代 , 由 原来 自 上 而 下 的 由 少数 资源 控制 者 集中 控制 主导 的 因特网 体系 转变 为 自 下 而 上 的 由 
广大 用 户 集体 智慧 和 力量 主导 的 因特网 体系 。Web 2. 0 内 在 的 动力 来 源 是 将 因特网 的 主导 
权 交 还 个 人 ,从 而 充分 发 据 了 个 人 的 积极 性 参与 到 体系 中 来 ,个 人 贡献 的 影响 及 智慧 及 个 人 
联系 形成 社 群 的 影响 替代 了 原来 少数 人 控制 和 制造 所 产生 的 影响 ,从 而 极 大 地 解放 了 个 人 
的 创作 和 贡献 的 潜能 ,使 得 因特网 的 创造 力 上 升 到 了 新 的 量 级 。 





9.1.3 Web 2.0 和 Web 1.0 比较 


Web 1. 0 24% Web 2. 0 概念 产生 之 前 , 即 2003 年 之 前 因特网 应 用 的 统称 ,两 者 对 比如 
表 9-1 所 示 。 
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表 9-1 Web 1.0 和 Web 2.0 对 比 








项 目 Web 1.0 Web 2.0 
时 间 / 年 1993 一 2003 2003 一 ? 
表现 形式 通过 浏览 器 浏览 大 量 网 页 网 页 ,加 上 很 多 通过 Web 分 享 的 其 他 “内 容 ”, 更 加 互 
动 ,更 像 一 个 应 用 程序 而 非 “ 网 页 ” 
模式 读 “ 写 " 和 贡献 
主要 内 容 单 元 网 页 帖子 /记录 ( 微 内 容 ) 
形态 静态 动态 (聚合 ) 
浏览 方式 浏览 器 浏览 器 .RSS 阅读 器 .其 他 
体系 结构 客户 服务 器 Web 服务 
内 容 创建 者 网 页 编写 者 任何 人 
主导 者 geeks 极 客 大 量 业余 人 士 
旗手 Netscape, Yahoo, Google Google 


在 Web 1. 0 中 经 常 谈 到 的 是 门户 内容、 商业 模式 .封闭 .大 而 全 , 它 以 网 站 为 中 心 , 是 
一 对 一 的 (网 站 对 用 户 )。Web 2. 0 相对 于 Web 1.0 谈论 的 是 个 性 化 应用、 服务 、 开 放 、 聚 
合 , 以 个 人 为 中 心 ,是 社会 性 网 络 ( 用 户 对 用 户 )。Web 1.0 的 典型 的 公司 是 Netscape, 而 
Web 2.0 的 典型 的 公司 是 Google. 

Netscape 以 传统 的 软件 摹 本 来 勾勒 其 所 谓 的 "因特网 作为 平台 ”, 其 旗舰 产品 是 因特网 
浏览 器 ,一 个 桌面 应 用 程序 。 同 时 ,他 们 的 战略 是 利用 其 在 浏览 器 市 场 的 统治 地 位 来 为 昂贵 
的 服务 器 产品 建立 起 市 场 。 最 终 , 浏 览 器 和 网 络 服务 器 都 变 成 了 “日 用 品 ”, 同 时 价值 链条 也 
向 上 移动 到 了 在 因特网 平台 上 传递 的 服务 。 

Google 以 天 生 的 网 络 应 用 程序 的 角色 问世 , 它 从 不 出 售 或 者 打包 程序 ,而 是 以 服务 的 
方式 来 传递 。 没 有 了 定期 的 软件 发 布 , 只 需要 持续 的 改善 。 没 有 了 许可 证 或 销售 ,只 需要 使 
用 。 没有 了 平台 迁移 ,只 需要 搭建 宏大 的 、 由 众多 个 人 计算 机 组 成 的 ,可 伸缩 的 网 络 。 其 上 
运行 开源 操作 系统 ,以 及 其 自行 研制 的 应 用 程序 和 工具 ,而 公司 之 外 的 任何 人 则 永远 无 法 接 
触 到 这 些 东西 。 

关于 Web 1.0 是 为 人 创造 Internet 而 Web 2.0 是 为 计算 机 更 好 地 创造 Internet 的 解 
释 ; World Wide Web(WWW) 是 英国 人 Tim-Berners-Lee 于 1989 年 在 欧洲 共同 体 的 一 个 
大 型 科研 机 构 任 职 时 发 明 的 。 通 过 Web. 因 特 网 上 的 资源 可 以 在 一 个 网 页 里 比较 直观 地 表 
示 出 来 ,而 且 资 源 之 间 在 网 页 上 可 以 链 来 链 去 。 在 Web 1.0 上 做 出 巨大 贡献 的 公司 有 
Netscape, Yahoo 和 Google. Netscape 研发 出 第 一 个 大 规模 商用 的 浏览 器 : Yahoo 的 杨 臻 
远 提出 了 因特网 黄页 ,将 因特网 进行 了 分 类 ; 而 Google 后 来 者 居 上 ,推出 了 大 受 欢 迎 的 搜 
索 服 务 。 

搜索 最 大 的 贡献 是 把 因特网 上 海量 的 信息 用 机 器 初步 进行 分 类 检索 。 但 是 , 光 知道 网 
页 里 有 哪些 关键 字 , 只 解决 了 人 浏览 网 页 的 需求 。 所 以 ,Tim-Berners-Lee 在 提出 WWW 不 
久 即 开始 推崇 语义 网 (Semantic Web) 的 概念 。 为 什么 呢 ? 因为 因特网 上 的 内 容 机 器 不 能 
理解 。 他 的 理想 是 网 页 制作 时 和 架构 数据 库 时 ,大 家 都 用 一 种 语义 的 方式 将 网 页 里 的 内 容 
表述 成 机 器 可 以 理解 的 格式 。 这 样 ,整个 因特网 就 成 了 一 个 结构 严谨 的 知识 库 。 从 理想 的 
角度 看 ,这 是 很 诱 人 的 ,因为 科学 家 和 机 器 都 喜欢 有 次 序 的 东西 。Berners-Lee 关心 的 是 因 
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特 网 上 的 数据 能 否 被 其 他 因特网 应 用 所 重复 引用 。 举 一 个 例子 说 明 标准 数据 库 的 魅力 。 有 
个 产品 叫 LiberyLink, 装 了 它 后 到 Amazon 上 去 浏览 时 会 自动 告诉 你 某 一 本 书 在 用 户 当 地 
的 图 书馆 能 否 找到 ,书号 是 多 少 等 。 因 为 一 本 书 有 统一 的 书号 和 书 名 ,两 个 不 同 的 因特网 服 
务 (Amazon 和 当地 图 书馆 数据 库 检索 ) 可 以 共享 数据 ,给 用 户 提供 全 新 服务 。 

但 是 ,语义 网 提出 之 后 , 曲 高 和 寡 , 响 应 的 人 不 多 。 为 什么 ? 因为 指望 要 网 页 的 制作 者 
提供 这 么 多 额外 的 信息 去 让 机 器 理解 一 个 网 页 太 难 了 ,简直 就 是 人 给 机 器 打工 。 这 违反 了 
人 们 能 偷懒 就 偷懒 的 本 性 。 看 看 Google 的 成 功 就 知道 了 。Google 有 一 个 Page Rank 技术 ， 
将 网 页 之 间 互 相 链 接 的 关系 用 来 做 结果 排序 的 一 个 依据 ,变相 利用 了 网 页 制作 人 的 判断 力 。 
想 一 想 网 页 的 制作 者 们 ,从 数量 来 说 , 比 纯 浏览 者 的 数量 小 得 多 。 但 Google 就 这 一 个 革新 ， 
用 上 了 网 页 制作 者 的 一 部 分 力量 ,已 将 其 推 上 了 因特网 的 顶峰 。 

所 以 因特网 下 一 步 是 要 让 所 有 的 人 都 忙 起 来 ,全 民 织 网 ,然后 用 软件 .机 器 的 力量 使 这 
些 信 息 更 容易 被 需要 的 人 找到 和 浏览 。 如 果 说 Web 1. 0 是 以 数据 为 核心 的 因特网 ,那么 
Web 2.0 可 以 说 是 以 人 为 出 发 点 的 因特网 。 


9.1.4 Web 2. 0 特征 








1. 多 人 参与 

Web 1.0 里 ,因特网 内 容 是 由 少数 编辑 人 员 ( 或 站 长 ) 定 制 的 ,比如 各 门户 网 站 ; 而 在 
Web 2.0 里 ,每 个 人 都 是 内 容 的 供稿 者 。 

2. 人 是 灵魂 

在 因特网 的 新 时 代 , 信 息 是 由 每 个 人 贡献 出 来 的 ,各 个 人 共同 组 成 因特网 信息 源 。Web 
2.0 的 灵魂 是 人 。 

3. 可 读 可 写 因 特 网 

在 Web 1.0 里 ,因特网 是 “阅读 式 因特网 ”, 而 在 Web 2.0 里 是 “可 写 可 读 因特网 ”。 虽 
然 每 个 人 都 参与 信息 供稿 ,但 在 大 范围 里 看 ,贡献 大 部 分 内 容 的 是 小 部 分 的 人 。 

4. Web 2.0 的 元 素 

Web 2.0 包含 了 人 们 经 常 使 用 到 的 服务 ,例如 博客 、 维 基 、P2P 下 载 , 社 区 、 分 享 服务 等 。 
博客 是 Web 2.0 里 十 分 重要 的 元 素 , 因 为 它 打 破 了 门户 网 站 的 信息 垄断 ,在 未 来 博客 的 地 
位 将 更 为 重要 。 

5. 总 结 看 法 

Web 2.0 实际 上 是 对 Web 1.0 的 信息 源 进行 扩展 ,使 其 多 样 化 和 个 性 化 。 





9.2 Web 2.0 应 用 产品 


因特网 现在 已 经 全 面 进入 Web 2.0 时 代 , 可 以 称 为 又 一 次 的 因特网 黄金 时 代 , 微 博 、 轻 
博客 的 诞生 和 迅猛 发 展 体现 出 Web 2. 0 在 网 络 中 的 强烈 互动 性 。 相 当 多 的 Web 2.0 产品 
得 到 广泛 应 用 。 

百度 百科 、WiKi 百科 、 人 人 网 、 点 点 网 、Wallop、Yahoo360、Openbc、 Cyworld, 43things、 
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Flickr、Cragslist、Glob、 客 齐集 、Friendster、LinkedIn、UU Ñ., RE. 天际 网 、 爱 米 网 、 
Linkist 新 浪 点 点 通 . Skype、 亿 友 、 新 浪 名 博 、 土 豆 网 .猪八戒 咸 客 网 等 都 是 Web 2. 0 产品 ， 
下 面 介绍 几 种 主要 的 产品 。 


9.2.1 Web 2.0 主要 应 用 产品 


1. Blog 


Blog 是 个 人 或 群体 以 时 间 顺 序 所作 的 一 种 记录 , 且 不 断 更 新 。Blog 之 间 的 交流 主要 是 
通过 反 向 引用 (TrackBack) 和 留言 /评论 (Comment) 的 方式 进行 的 。Blog 的 作者 (Blogger) 
既是 这 个 Blog 的 创作 人 ,也 是 其 档案 管理 人 。 

TrackBack 是 一 种 Blog 应 用 工具 , 它 可 以 让 Blogger 知道 有 哪些 人 看 到 自己 的 文章 后 
撰写 了 与 之 有 关 的 内 容 。 这 种 功能 实现 了 网 站 之 间 的 互相 通告 ,因此 它 也 可 以 看 作 一 种 提 
醒 功能 。 

在 Web 2. 0 的 世界 中 ,Blog( 中 文 翻译 为 “网 志 ”、“ 博 客 ”) 绝 对 是 一 个 “招牌 菜 ”, 它 己 获 
得 了 广泛 的 知名 度 , 代 表 个 人 媒体 的 崛起 。 

“9。11” 事 件 是 Blog 发 展 史上 的 里 程 碑 阶 段 。 人 们 发 现 , 恐 怖 事件 现场 当事人 建立 的 
Blog 才 是 最 可 能 给 出 第 一 手 和 最 真实 信息 的 人 。 一 个 重要 的 博客 类 战争 Blog(WarBlog) 
因此 繁荣 起 来 “对 “9。11? 事 件 最 真实 .最 生动 的 描述 不 在 (纽约 时 报 》 而 在 那些 幸存 者 的 
Blog 中 ”一 位 Blog 作者 写 道 。 

Blog 并 不 是 一 个 充满 技术 含量 的 概念 ,为 了 便于 理解 ,你 甚至 可 以 把 它 看 作 以 时 间 为 
顺序 更 新 的 个 人 主页 。Blog 的 可 贵 之 处 在 于 , 它 让 世人 认识 到 写作 并 不 是 媒体 的 专利 ,新 
闻 也 不 是 记者 的 特权 。 再 眼疾 手 快 的 记者 也 不 如 在 现场 的 人 更 了 解 事实 。 目 击 者 的 Blog 
比 新 闻 记 者 拥有 更 高 的 权威 和 更 接近 事实 的 判断 。 

在 亚洲 ,韩国 人 Oh Yeon Ho 创立 的 Blog 网 站 已 经 成 为 韩国 重要 的 媒体 力量 ,通过 发 
动 全 社会 的 力量 ,无 论 是 韩国 总 统 卢 武 匀 遭 弹劾 事件 ,还 是 韩国 人 金 善 逸 在 伊拉克 遭 到 绑架 
并 被 杀害 事件 ,都 走 在 了 韩国 各 大 媒体 的 前 列 。 这 个 网 站 的 一 条 新 闻 上 竟然 有 85 000 条 评 
论 , 远 超过 其 他 媒体 互动 水 平 。 

著名 硅谷 IT 专栏 作家 丹 。 吉尔 默 总 结 说 ,Blog 本 身 代表 着 “新 闻 媒 体 3. 0”。1.0 是 指 
传统 媒体 或 者 说 旧 媒 体 (Old Media. w REAR. CCTV); 2.0 就 是 人 们 通常 所 说 的 新 媒体 
(New Media, 如 新 浪 、 雅 虎 ) ,也 叫做 跨 媒体 ; 3. 0 就 是 以 Blog 为 代表 (We Media) 的 个 人 媒 
体 , 或 者 叫 自 媒体 。 

Blog 发 展 到 现在 ,内 容 已 并 不 仅 局 限于 文字 ,图 片 . 音 频 和 视频 都 是 可 选项 ,而 音频 
Blog 就 有 一 个 自己 的 名 字 一 一 Podcast (国内 翻译 为 播客 ”)。Blog 搭 起 从 因特网 阅读 时 代 
到 写 录 时 代 的 桥梁 。 

2. WiKi 


WiKi 是 Web 2.0 体系 下 的 又 一 个 概念 。WiKi 可 以 简单 地 解释 为 由 网 友 自 发 维护 的 
网 络 大 百科 全 书 , 这 个 大 百科 全 书 由 网 友 自 发 编辑 并 修改 内 容 , 每 个 人 既 可 以 是 某 个 词 条 的 
读者 ,又 可 以 是 这 个 词 条 的 编撰 者 ,读者 和 编辑 的 界限 在 WiKi 中 被 模糊 了 。 首 个 WiKi 网 
站 的 创建 者 Ward Cunningham 说 :“ 我 创建 第 一 个 WiKi 的 初衷 就 是 要 建立 一 种 环境 ,我 们 
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3. Tag 

标签 是 一 种 更 为 灵活 、 有 趣 的 日 志 分 类 方式 ,可 以 让 你 为 自己 所 创造 的 内 容 (Blog X 
字 、 图 片 .音频 等 ) 创 建 多 个 用 作 解 释 的 关键 字 。 比 如 一 副 雪 景 的 图 片 就 可 以 定义 “雪花 ”“ 冬 
天 ”北极 "“ 风 景 照 片 ” 这 几 个 。 雅 虎 刚刚 收购 的 图 片 共享 网 站 Flickr 就 对 此 提供 支持 。 
Tag 类 似 于 传统 媒体 的 “栏目 ”, 它 的 相对 优势 则 在 于 创作 者 不 会 因 媒 体 栏目 的 有 限 性 而 无 
法 给 作品 归 类 ,体现 了 群体 的 力量 ,使 得 日 志 之 间 的 相关 性 和 用 户 之 间 的 交互 性 大 大 增强 ， 
其 核心 价值 是 社会 化 书签 SocialBookmark, 用 于 分 享 多 人 的 网 络 书签 。 

4. SNS 

SNS(Social Network Service, 社 会 性 网 络 服务 ) 依 据 六 度 分 隔 理论 ,以 认识 朋友 的 朋友 
为 基础 ,扩展 自己 的 人 脉 , 便 于 在 需要 的 时 候 可 以 随时 获取 ,得 到 该 人 脉 的 帮助 。SNS 网 站 
就 是 依据 六 度 分 隔 理论 建立 的 网 站 , 帮 你 运营 朋友 圈 里 的 朋友 。 

Google 推出 1GB 免费 信箱 也 是 一 个 SNS 应 用 ,通过 网 友之 间 的 互相 邀请 ,Gmail 在 很 
短 的 时 间 内 就 获得 了 巨大 的 用 户 群 。 

5. RSS 

RSS 是 一 种 用 于 共享 新 闻 和 其 他 Web 内 容 的 数据 交换 规范 ,起 源 于 网 景 通信 公司 
Netscape 的 推 (Push) 技 术 , 将 订户 订阅 的 内 容 传送 给 他 们 的 通信 协同 格式 (Protocol) 。 主 
要 版 本 有 0.91、1.0 和 2.0, 广 泛 用 于 Blog, WiKi 和 网 上 新 闻 频 道 。 借 助 RSS, 网 民 可 以 自 
由 订阅 指定 Blog 或 是 新 闻 等 支持 RSS 的 网 站 ( 绝 大 多 数 的 Blog 都 支持 RSS) ,也 就 是 说 读 
者 可 以 自 定义 自己 喜欢 的 内 容 . 而 不 是 像 Web 1.0 那样 由 网 络 编辑 选 出 读者 阅读 的 内 容 。 
世界 上 多 数 知 名 新 闻 社 网 站 都 提供 RSS 订阅 支持 , 它 的 核心 价值 在 于 颠覆 了 传统 媒体 中 心 
的 理念 。 雅 虎 首席 运营 官 丹尼尔 。 罗 森 格 告诉 记者 ,“( 对 传统 媒体 的 ) 颠 履 倒 不 敢 说 , 但 
RSS 重新 定义 了 信息 分 享 的 方法 , 颠 履 了 未 来 信息 社会 必须 有 一 个 核心 的 理念 ,虽然 RSS 
眼下 并 不 会 为 网 络 广 告 带 来 什么 帮助 .但 是 却 能 让 所 有 人 更 好 地 分 享 信息 。” 


9.2.2 主要 产品 的 区 别 


1. Blog 和 BBS 有 何不 同 

Blog 是 集 原创 文章 、 链 接 评 价 、 链 接 、 网 友 跟 进 于 一 体 的 , 比 起 BBS 那 种 口 无 遮 拦 ,随心 
所 和 欲 、 良 荒 不 齐 的 情绪 化 发 言 , 博 客 制作 的 日 志 更 加 审慎 .仔细 和 周详 ,其 单个 文本 的 丰富 
性 .讨论 脉络 的 清晰 度 、 论 题 的 拓展 空间 都 超过 了 BBS 的 网 友 发 言 帖子 。 

2. WiKi 和 BBS 有 何不 同 

BBS 没有 上 下 文 的 概念 .讨论 经 常 无 法 持久 地 进行 。 讨 论 组 反复 围绕 着 同一 个 话题 ， 
但 是 人 们 经 常 忘 了 以 前 说 过 什么 ,讨论 的 内 容 无 法 积累 和 沉淀 。 

3. WiKi 和 Blog 有 何不 同 

WiKi 站 点 一 般 都 有 着 一 个 严格 的 共同 关注 , WiKi 主题 一 般 是 明确 的 .坚定 的 。WiKi 
站 点 的 内 容 要 求 具 有 高 度 相关 性 。 其 确定 的 主旨 .任何 作者 和 参与 者 都 应 当 严肃 地 遵从 。 
WiKi 的 协作 是 针对 同一 主题 作 外 延 式 和 内 涵 式 的 扩展 ,将 同一 个 问题 谈 的 很 充分 、 很 深入 。 
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WiKi 非常 适合 于 做 一 种 all about something 的 站 点 。 个 性 化 在 这 里 不 是 最 重要 的 , 信 
息 的 完整 性 和 充分 性 及 权威 性 才 是 真正 的 目标 。 由 于 WiKi 的 技术 实现 和 含义 的 交织 及 复 
杂 性 ,如 果 漫 无 主题 地 去 发 挥 ,最 终 连 建立 者 自己 都 会 很 快 迷失 。 

WiKi 使 用 最 多 也 最 合适 的 就 是 共同 进行 文档 的 写作 或 文章 /书籍 的 写作 。 特 别 是 技 
术 相 关 的 ( 尤 以 程序 开发 相关 的 )FAQ, 更 适合 以 WiKi 来 展现 。 

Blog 是 一 种 无 主题 变奏 ,一 般 来 说 是 少数 人 (大 多 数 情 况 下 是 一 个 人 ) 关 注 的 蔓延 。 一 
般 的 Blog 站 点 都 会 有 一 个 主题 ,凡是 这 个 主旨 往往 都 是 很 松散 的 ,而 且 一 般 不 会 去 刻意 地 
控制 内 容 的 相关 性 。 

Blog 注重 的 是 个 人 的 思想 (不 管 多 么 不 成 熟 ,多 么 的 菲 夷 所 思 ) ,个 性 化 是 Blog 的 最 重 
要 特色 。Blog 注重 交流 ,一 般 是 小 范围 的 交流 ,访问 者 通过 Blog 文章 的 评论 进行 交流 。 

Blog 也 有 “协作 ”的 意思 ,但 是 协作 一 般 是 指 多 人 维护 ,而 维护 者 之 间 可 能 着 力 于 完全 
不 同 的 内 容 。 这 种 协作 对 内 容 而 言 是 比较 松散 的 。 任 何人 ,任何 主题 的 站 点 都 可 以 Blog 方 
式 展示 ,都 有 它 的 生机 和 活力 。 


9.3 Web 2.0 相关 技术 





9.3.1 Web 2.0 的 设计 模式 


Web 2.0 应 用 “模式 语言 (A Pattern Language)” 描 述 了 问题 的 核心 解决 方案 ,此 方式 
可 以 在 方案 中 重复 使 用 很 多 次 。 

1. KÆ 

小 型 网 站 构成 了 因特网 内 容 的 大 部 分 ; 细 分 市 场 构成 了 因特网 的 大 部 分 可 能 的 应 用 程 
序 。 所 以 ,利用 客户 的 自 服务 和 算法 上 的 数据 管理 来 延伸 到 整个 因特网 ,到 达 边 缘 而 不 仅仅 
是 中 心 , 到 达 长 尾 而 不 仅仅 是 头 部 。 

2. 数据 是 下 一 个 Intel Inside 

应 用 程序 越 来 越 多 地 由 数据 驱动 。 因 此 ,为 获得 竞争 优势 ,应 设法 拥有 一 个 独特 的 , 难 
于 再 造 的 数据 资源 。 

3. 用 户 增添 价值 

对 因特网 程序 来 说 ,竞争 优势 的 关键 在 于 用 户 多 大 程度 上 会 在 你 提供 的 数据 中 添加 他 
们 自己 的 数据 。 因 而 ,不 要 将 “参与 的 体系 ”局 限于 软件 开发 ,要 让 你 的 用 户 们 隐 式 和 显 式 地 
为 程序 增添 价值 。 

4. 默认 的 网 络 效应 

只 有 很 小 一 部 分 用 户 会 不 嫌 麻 烦 地 为 你 的 程序 增添 价值 。 因 此 ,将 默认 设置 适合 用 户 
使 用 ,成 为 用 户 使 用 程序 的 副产品 。 

5. 一 些 权力 保留 

知识 产权 保护 限制 了 重用 也 阻碍 了 实验 。 因 而 .在 好 处 来 自 于 集体 智慧 而 不 是 私有 约 
束 的 时 候 ,应 确认 采用 的 门槛 要 低 。 遵 循 现存 准则 ,并 以 尽 可 能 少 的 限制 来 授权 。 设 计 程 序 
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使 之 具备 可 编程 性 和 可 混合 性 。 

6. 永远 的 测试 版 

当 设 备 和 程序 连接 到 因特网 时 ,程序 已 经 不 是 软件 作品 了 ,它们 是 正在 展开 的 服务 。 因 
此 ,不 要 将 各 种 新 特性 都 打包 到 集大成 的 发 布 版 本 中 ,而 应 作为 普通 用 户 体验 的 一 部 分 来 经 
常 添加 这 些 特 性 。 吸 引 你 的 用 户 来 充当 实时 的 测试 者 ,并 且 记录 这 些 服 务 以 便 了 解 人 们 是 
如 何 使 用 这 些 新 特性 的 。 

7. 合作 ,而 非 控制 

Web 2.0 的 程序 是 建立 在 合作 性 的 数据 服务 网 络 之 上 的 。 因 此 ,提供 网 络 服务 界面 和 
内 容 聚 合 ,并 重用 其 他 人 的 数据 服务 。 支 持 允 许 松散 结合 系统 的 轻 量 型 编程 模型 。 

8. 软件 超越 单一 设备 

PC 不 再 是 因特网 应 用 程序 的 唯一 访问 设备 ,而 且 局 限于 单一 设备 的 程序 的 价值 小 于 
那些 相连 接 的 程序 。 因 此 ,从 一 开始 就 设计 你 的 应 用 程序 ,使 其 集成 跨越 手持 设备 .PC 和 
因特网 服务 器 的 多 种 服务 。 








9.3.2 Web 标准 


1. 什么 是 Web 标准 

Web 标准 不 是 某 一 个 标准 ,而 是 一 系列 标准 的 集合 。 网 页 主要 由 三 部 分 组 成 : 结构 
(Structure) ,表现 (Presentation) 和 行为 (Behavior)。 对 应 的 标准 也 分 为 三 个 方面 : 结构 化 
标准 语言 ,主要 包括 XHTML 和 XML; 表现 标准 语言 ,主要 包括 CSS; 行为 标准 ,主要 包括 
对 象 模型 (如 W3C DOM) ECMAScript 等 。 这 些 标准 大 部 分 由 W3C 起 草 和 发 布 ,也 有 一 
些 是 其 他 标准 组 织 制 定 的 标准 ,比如 ECMA(European Computer Manufacturers Association) 的 
ECMAScript 标准 。 

2. 相应 的 标准 

1) XML 

目前 推荐 遵循 的 是 W3C 于 2000 年 10 月 6 日 发 布 的 XML1.0( 参 考 www. w3. org/ 
TR/2000/REC-XML-20001006)。 和 HTML 一 ff. KML ( The Extensible Markup 
Language, 可 扩展 标识 语言 ) 同 样 来 源 于 SGML. {8 XML 是 一 种 能 定义 其 他 语言 的 语言 。 
XML 最 初 设计 的 目的 是 弥补 HTML 的 不 足 , 以 强大 的 扩展 性 满足 网 络 信 息 发 布 的 需要 ， 
后 来 逐渐 用 于 网 络 数据 的 转换 和 描述 。 关 于 XML 的 好 处 和 技术 规范 细节 这 里 就 不 多 说 
了 ,网 上 有 很 多 资料 ,也 有 很 多 书籍 可 以 参考 。 

2) XHTML 

目前 推荐 遵循 的 是 W3C F 2000 4 1 H 26 A RAAT XHTML1. 0( 8 http: //www. 
w3. org/TR/xhtmll), XML 虽然 数据 转换 能 力 强大 ,完全 可 以 替代 HTML ,但 面 对 成 千 上 
万 已 有 的 站 点 ,直接 采用 XML 还 为 时 过 早 。 因 此 ,在 HTML4.0 的 基础 上 ,用 XML 的 规 
则 对 其 进行 扩展 .得 到 了 XHTML(The Extensible HyperText Markup Language, 可 扩展 
超 文 本 标识 语言 ) 。 简 单 地 说 .建立 XHTML 的 目的 就 是 实现 HTML 向 XML 的 过 渡 。 
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3). CSS 

目前 推荐 遵循 的 是 W3C F 1998 年 5 月 12 日 发 布 的 CSS2( 参 考 http://www. w3. 
org/TR/CSS2/)。W3C 创建 CSS(Cascading Style Sheets, 层 县 样式 表 ) 标 准 的 目的 是 以 
CSS 取代 HTML 表格 式 布局 、 帧 和 其 他 的 语言 。 纯 CSS 布局 与 结构 式 XHTML 相 结 合 能 
帮助 设计 师 分 离 外 观 与 结构 ,使 站 点 的 访问 及 维护 更 加 容易 。 

4) DOM 

根据 W3C DOM 规范 (http://www. w3. org/DOM/). DOM (Document Object 
Model, 文 档 对 象 模型 ) 是 一 种 与 浏览 器 、 平 台 、 语 言 的 接口 ,使 得 用 户 可 以 访问 页 面 中 其 他 
的 标准 组 件 。 简 单 理解 ,DOM 解决 了 Netscaped 的 JavaScript 和 Microsoft 的 JScript 之 间 
的 冲突 ,给 予 Web 设计 师 和 开发 者 一 个 标准 的 方法 ,让 他 们 来 访问 他 们 站 点 中 的 数据 ,脚本 
和 表现 层 对 象 。 

5) ECMAScript 

ECMAScript 是 ECMA(European Computer Manufacturers Association) 制定 的 标准 
脚本 语言 (JavaScript)。 目 前 推荐 遵循 的 是 ECMAScript 262 (http://www. ecma. ch/ 
ecmal/STAND/ECMA-262. HTM). 

3. Web 标准 的 目的 

我 们 大 部 分 人 都 有 深刻 体验 ,每 当主 流 浏览 器 版 本 升级 ,我 们 刚 建立 的 网 站 就 可 能 变 的 
过 时 ,就 需要 升级 或 者 重新 建造 一 遍 网 站 。 例 如 1996 一 1999 年 典型 的 “浏览 器 大 战 ”, 为 了 
兼容 Netscape 和 IE, 网 站 不 得 不 为 这 两 种 浏览 器 写 不 同 的 代码 。 同 样 的 ,每 当 新 的 网 络 技 
术 和 交互 设备 出 现 ,也 需要 制作 一 个 新 版 本 来 支持 这 种 新 技术 或 新 设备 ,例如 支持 手机 上 网 
的 WAP 技术。 类 似 的 问题 举 不 胜 举 : 网 站 代码 腔 肿 、 繁 杂 , 浪 费 了 大 量 的 带宽 ; 针对 某 种 
浏览 器 的 DHTML 特效 ,屏蔽 了 部 分 潜在 的 客户 ; 不 易 用 的 代码 ,残障 人 士 无 法 浏览 网 站 
等 。 这 是 一 种 恶性 循环 ,是 一 种 巨大 的 浪费 。 

如 何 解 决 这 些 问 题 呢 ? 有 识 之 士 早已 开始 思考 ,需要 建立 一 种 普遍 认同 的 标准 来 结束 
这 种 无 序 和 混乱 。 商 业 公司 (Netscape、Microsoft 等 ) 也 终于 认识 到 统一 标准 的 好 处 ,因此 
在 W3C(W3C. org) 的 组 织 下 ,网 站 标准 开始 被 建立 (1998 年 2 月 10 日 发 布 XML1.0 为 标 
志 ) ,并 在 网 站 标准 组 织 (webstandards. org) 的 督促 下 推广 执行 。 网 站 标准 的 目的 是 : 

(1) 提供 最 多 利益 给 最 多 的 网 站 用 户 。 

(2) 确保 任何 网 站 文档 都 能 够 长 期 有 效 。 

(3) 简化 代码 、 降 低 建设 成 本 。 

(4) 让 网 站 更 容易 使 用 ,能 适应 更 多 不 同 用 户 和 更 多 网 络 设备 。 

(5) 当 浏 览 器 版 本 更 新 ,或 者 出 现 新 的 网 络 交 互 设备 时 ,确保 所 有 应 用 能 够 继续 正确 执行 。 

4. 采用 Web 标准 的 优点 

(1) 对 网 站 浏览 者 的 优点 : 

O 文件 下 载 与 页 面 显示 速度 更 快 。 

O 内 容 能 被 更 多 的 用 户 所 访问 (包括 失明 、 视 弱 、 色 讶 等 残障 人 士 )。 

© 内 容 能 被 更 广泛 的 设备 所 访问 (包括 屏幕 阅读 机 、 手 持 设备 、 搜 索 机 器 人 、 打 印 机 、 电 
冰箱 等 )。 
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© 用 户 能 够 通过 样式 选择 定制 自己 的 表现 界面 。 

© 所 有 页 面 都 能 提供 适 于 打印 的 版 本 。 

(2) 对 网 站 所 有 者 和 开发 者 的 优点 : 

D 更 少 的 代码 和 组 件 , 容 易 维护 。 

© 带宽 要 求 降低 (代码 更 简洁 ) ,成 本 降低 。 举 个 例子 : 当 ESPN. com 使 用 CSS 改版 
后 ,每 天 节约 超过 两 兆 字 节 (Terabytes) 的 带宽 。 

@ 更 容易 被 搜寻 引擎 搜索 到 。 

@ 改版 方便 ,不 需要 变动 页 面 内容 。 

© 提供 打印 版 本 而 不 需要 复制 内 容 。 

© 提高 网 站 易 用 性 。 在 美国 ,有 严格 的 法 律 条 款 (Section 508) 来 约束 政府 网 站 必须 达 
到 一 定 的 易 用 性 ,其 他 国家 也 有 类 似 的 要 求 。 


9.3.3 向 Web 标准 过 渡 


大 部 分 网 页 采用 传统 的 表格 布局 .表现 与 结构 混杂 在 一 起 的 方式 来 建立 网 站 。 学 习 使 
用 XHTML 十 CSS 的 方法 需要 一 个 过 程 ,使 现 有 网 站 符合 网 站 标准 也 不 可 能 一 步 到 位 。 最 
好 的 方法 是 循序 渐进 ,分 阶段 来 逐步 达到 完全 符合 网 站 标准 的 目标 。 如 果 是 新 手 ,或 者 对 代 
码 不 是 很 熟悉 ,也 可 以 采用 遵循 标准 的 编辑 工具 ,例如 Dreamweaver MX 2004, 它 是 目前 支 
持 CSS 标准 最 完善 的 工具 。 

1. 初级 改善 

(1) 为 页 面 添加 正确 的 DOCTYPE。 

很 多 设计 师 和 开发 者 都 不 知道 什么 是 DOCTYPE(Document Type),DOCTYPE 有 什 
么 用 。DOCTYPE 主要 用 来 说 明 用 的 XHTML 或 者 HTML 是 什么 版 本 。 浏 览 器 根据 
DOCTYPE 定义 的 DTD( 文 档 类 型 定义 ) 来 解释 页 面 代码 。 所 以 ,如 果 不 注意 设置 了 错误 的 
DOCTYPE, 结 果 会 让 你 大 吃 一 惊 。XHTML1.0 提供 了 三 种 DOCTYPE 可 选择 : 

O 过 渡 型 (Transitional) 


<! DOCTYPE html PUBLIC " - //W3C//DTD XHTML 1.0 Transitional//EN""http://waw.w3. org/TR/xhtml1/ 
DTD/xhtm11 - transitional. dtd"> 


© 严格 型 (Strict) 


<! DOCTYPE html PUBLIC " ~ //W3C//DTD XHTML 1.0 Strict//EN"" http://www. w3. org/TR/xhtm11/DTD/ 
xhtml1 - strict. dtd"> 


© 框架 型 (Frameset) 


<! DOCTYPE html PUBLIC " - //W3C//DTD XHTML 1. 0 Frameset//EN""http://www. w3. org/TR/xhtm11/DTD/ 
xhtml1l - frameset. dtd"> 


(2) 设 定 一 个 名 字 空 间 。 
直接 在 DOCTYPE 声明 后 面 添加 如 下 代码 : 


<html XMLns = "http://www. w3. org/1999/xhtm1"> 


151 


大 数据 云 服务 技术 架构 与 实践 





Namespace 是 收集 元 素 类 型 和 属性 名 字 的 一 个 详细 的 DTD,Namespace 声明 允许 通过 
在 线 地 址 指向 来 识别 Namespace。 只 要 照样 输入 代码 就 可 以 。 

(3) 声明 编码 语言 。 

为 了 被 浏览 器 正确 解释 和 通过 标识 校 验 , 所 有 的 XHTML 文档 都 必须 声明 它们 所 使 用 
的 编码 语言 。 代 码 如 下 : 


<meta http- equiv = "Content — Type" content = "text/html; charset = GB2312" /> 


(4) 用 小 写字 母 书写 所 有 的 标签 。 

XML 对 大 小 写 是 敏感 的 ,所 以 XHTML 也 是 大 小 写 有 区 别 的 。 所 有 的 XHTML 元 素 
和 属性 的 名 字 都 必须 使 用 小 写 ,否则 文档 将 被 W3C 校 验 认 为 是 无 效 的 。 

(5) 为 图 片 添加 alt 属性 。 

为 所 有 图 片 添加 alt 属性 。alt 属性 指定 了 当 图 片 不 能 显示 的 时 候 就 显示 供 蔡 换文 本 ， 
这 样 做 对 正常 用 户 可 有 可 无 ,但 对 纯 文本 浏览 器 和 使 用 屏幕 阅读 机 的 用 户 来 说 是 至 关 重 要 
的 。 只 有 添加 了 alt 属性 ,代码 才 会 被 W3C 正确 性 校 验 通过 。 需 要 注意 的 是 ,要 添加 有 意 
义 的 alt 属性 。 

(6) 给 所 有 属性 值 加 引号 。 

在 HTML 中 可 以 不 给 属性 值 加 引号 ,但 是 在 XHTML 中 必须 加 引号 ,这 是 向 XML 过 
渡 的 要 求 。 

(7) 关闭 所 有 的 标签 。 

在 XHTML 中 ,每 一 个 打开 的 标签 都 必须 关闭 。 

经 过 上 述 7 个 规则 处 理 后 ,页 面 就 基本 符合 XHTML1.0 的 要 求 了 。 但 还 需要 校 验 一 
下 是 否 真 的 符合 标准 了 。 可 以 利用 W3C 提供 免费 校 验 服务 (http://validator. w3. org/)， 
发 现 错误 后 逐个 修改 。 在 后 面 的 资源 列表 中 也 提供 了 其 他 校 验 服 务 和 对 校 验 进行 指导 的 网 
址 ,可 以 作为 W3C 校 验 的 补充 。 当 最 后 通过 了 XHTML 验证 ,意味 着 向 网 站 标准 迈 出 了 一 
大 步 。 

2. 中 级 改善 

中 级 改善 需要 应 用 CSS 技术 .可 以 有 效 地 对 页 面 的 布局 .字体 、 颜 色 、 背 景 和 其 他 效果 
实现 更 加 精确 的 控制 。 

A) H CSS 定义 元 素 外 观 。 

在 写 标 识 时 已 经 养 成 习惯 , 当 希 望 字体 大 点 就 用 < hl >, 希 望 在 前 面 加 个 点 符号 就 用 
<li>。 人 们 总 是 认为 < hl > 的 意思 是 大 的 ,<1i> 的 意思 是 圆 点 ,<b > 的 意思 是 "加 粗 文本 ”。 
而 实际 上 ,< hl > 能 变 成 想 要 的 任何 样子 ,通过 CSS,< hl > 能 变 成 小 的 字体 ,< p > 文本 能 够 
变 成 巨大 的 、 粗 体 的 ,< li > 能够 变 成 一 张 图 片 等 。 不 能 强迫 用 结构 元 素 实 现 表 现 效果 ,应 该 
使 用 CSS 来 确定 那些 元 素 的 外 观 。 例 如 ,可 以 使 原来 默认 的 6 级 标题 看 起 来 大 小 一 样 : 








hl, h2, h3, h4, h5, h6{ font - family: Rk, serif; font- size: 12px; } 

(2) 用 结构 化 元 素 代 蔡 无 意义 的 垃圾 。 

许多 人 可 能 从 来 都 不 知道 HTML 和 XHTML 元 素 设计 的 本 意 是 用 来 表达 结构 的 。 很 
多 人 已 经 习惯 用 元 素来 控制 表现 ,而 不 是 结构 。 例 如 ,一 段 列 表 内 容 可 能 会 使 用 下 面 这 样 的 
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标识 : 
旬 子 一 <br /> 句子 二 <br /> 句子 三 < br /> 
如 果 采 用 一 个 无 序列 表 代替 会 更 好 : 
<ul><li>t] f—</li>< li>] f —</li><1li> Ff =</li></ul> 


你 或 许 会 说 “但 是 <li> 显 示 的 是 一 个 圆 点 ,我 不 想 用 圆 点 ”。 事 实 上 ,CSS 没有 设 定 元 
素 看 起 来 是 什么 样子 ,完全 可 以 用 CSS 关 掉 圆 点 。 

(3) 给 每 个 表格 和 表单 加 上 id。 

给 表格 或 表单 赋予 一 个 唯一 的 、 结 构 的 标记 ,例如 


<table id= "menu"> 


接 下 来 ,在 书写 样式 表 的 时 候 就 可 以 创建 一 个 menu 的 选择 器 ,并 且 关 联 一 个 CSS 规 
则 ,用 来 告诉 表格 单元 ,文本 标签 和 所 有 其 他 元 素 怎么 去 显示 。 这 样 ,不 需要 对 每 个 < td > 标 
签 附带 一 些 多 余 的 占用 带宽 的 表现 层 的 高 、 宽 .对 齐 和 背景 颜色 等 属性 。 只 需要 一 个 附着 
的 标记 (标记 menu 的 id 标记 ) ,就 可 以 在 一 个 分 离 的 样式 表 内 为 干净 的 、 紧 凑 的 代码 标记 进 
行 特别 的 表现 层 处理 。 

中 级 改善 这 里 先 列 主要 的 三 点 ,其 中 包含 的 内 容 和 知识 点 非常 多 ,需要 逐步 学 习 和 人 掌 
握 , 直 到 最 后 实现 完全 采用 CSS 而 不 采用 任何 表格 实现 布局 。 

3. 高 级 改善 

高 级 改善 往往 基于 Ajax 创建 更 好 、 更 快 及 交互 性 更 强 的 Web 应 用 程序 。 

(1) Ajax(Asynchronous JavaScript and XML, 异 步 JavaScript 和 XML) 是 一 种 创建 交 
互 式 网 页 应 用 的 网 页 开发 技术 。Ajax 不 是 一 个 技术 , 它 实际 上 是 几 种 技术 ,每 种 技术 都 有 
其 独特 之 处 , 合 在 一 起 就 成 了 一 个 功能 强大 的 新 技术 。Ajax 包括 : 

O 使 用 XHTML 十 CSS 来 表示 信息 。 

© 使 用 JavaScript 操作 DOM( Document Object Model) 进行 动态 显示 及 交互 。 

@ 使 用 XML 和 XSLT 进行 数据 交换 及 相关 操作 。 

@ 使 用 XMLHttpRequest 对 象 与 Web 服务 器 进行 异步 数据 交换 。 

© 使 用 JavaScript 将 所 有 的 东西 绑 定 在 一 起 。 

(2) 与 传统 Web 应 用 模型 的 对 比 , 如 图 9-1 所 示 。 

传统 的 Web 应 用 模型 工作 起 来 是 这 样 : 大 部 分 界面 上 的 用 户 动作 触发 一 个 连接 到 
Web 服务 器 的 HTTP 请 求 。 服 务 器 完成 一 些 处 理 , 如 接收 数据 ,处 理 计 算 ,再 访问 其 他 的 
数据 库 系统 ,最 后 返回 一 个 HTML 页 面 到 客户 端 。 这 是 一 个 老 套 的 模式 , 自 采 用 超 文 本 作 
J Web 使 用 以 来 一 直 都 这 样 用 .这 就 限制 了 Web 界面 没有 桌面 软件 那么 好 用 。 传 统 技术 
不 会 产生 很 好 的 用 户 体验 ,每 一 个 动作 用 户 都 要 等 待 。 很 明显 ,如 果 按 照 桌 面 程序 的 思维 设 
计 Web 应 用 ,我 们 不 愿意 让 用 户 总 是 等 待 。 

(3) Ajax 的 好 处 。 

DO 减轻 服务 器 的 负担 。 
因为 Ajax 的 根本 理念 是 “ 按 需 取 数 据 ”, 所 以 最 大 可 能 地 减少 了 元 余 请 求 和 响应 对 服务 
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经 典 的 Web 应 用 模型 


datastores,backend 
processing, legacy systems 


server-side systems 


Ajax 应 用 模型 


图 9-1 经 典 Web 应 用 模型 与 Ajax 应 用 模型 的 比较 


器 造成 的 负担 。 

@ 无 刷新 更 新 页 面 ' 减 少 用 户 实际 和 心理 等 待 时 间 。 

首先 ,“ 按 需 取 数 据 ” 的 模式 减少 了 数据 的 实际 读 取 量 ; 其 次 ,即使 要 读 取 比较 大 的 数 
据 ,也 不 用 像 Reload 一 样 出 现 白 屏 的 情况 。 由 于 Ajax 是 用 XMLHTTP 发 送 请 求 得 到 服务 
端 应 答 数据 ,在 不 重新 载 入 整个 页 面 的 情况 下 用 JavaScript 操作 DOM 最 终 更 新 页 面 的 ,所 
以 在 读 取 数 据 的 过 程 中 ,用 户 所 面 对 的 也 不 是 白 屏 , 而 是 原来 的 页 面 状 态 ( 或 者 可 以 加 一 个 
Loading 的 提示 框 让 用 户 了 解数 据 读 取 的 状态 ), 只 有 当 接 收 到 全 部 数据 后 才 更 新 相应 部 分 
的 内 容 , 而 这 种 更 新 也 是 瞬间 的 ,用 户 几 乎 感觉 不 到 。 

@ 更 好 的 用 户 体验 。 

@ 也 可 以 把 以 前 的 一 些 服务 器 负担 的 工作 转嫁 到 客户 端 ,利用 客户 端 闲置 的 处 理 能 
来 处 理 , 减 轻 服 务 器 和 带宽 的 负担 ,节约 空间 和 带宽 租用 成 本 。 

© Ajax 可 以 调用 外 部 数据 。 

© 基于 标准 化 的 并 被 广泛 支持 的 技术 ,并 且 不 需要 插件 或 下 载 小 程序 。 

© Ajax 使 Web 中 的 界面 与 应 用 分 离 ( 也 可 以 说 是 数据 与 呈现 分 离 )。 

(4) Ajax 的 问题 。 

D 搜索 引擎 不 友好 。 

@ 一 些 手持 设备 (如 手机 、PDA 等 ) 现 在 还 不 能 很 好 的 支持 Ajax。 

© H JavaScript 作 的 Ajax 引擎 ,JavaScript 的 兼容 性 和 调试 都 是 让 人 头痛 的 事 。 

@ Ajax 的 无 刷新 重 载 。 由 于 页 面 的 变化 没有 刷新 重 载 那么 明显 ,因此 容易 给 用 户 带 
来 困扰 ,不 知道 现在 的 数据 是 新 的 还 是 已 经 更 新 过 的 。 
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© 对 流 媒体 的 支持 没有 Flash. Java Applet 好 。 

(5) Ajax 框架 及 分 类 。 

@® Aplication frameworks 应 用 程序 框架 .通过 窗口 生成 组 件 建立 GUI Bindows 
BackBase DOJO qooxdoo。 

© Infrastructural frameworks 提供 基本 的 框架 功能 和 轻便 式 浏览 器 端 操作 ,让 开发 者 
去 创建 具体 应 用 ,主要 功能 包括 : 

。 基于 XMLHttpRequest 组 件 的 浏览 器 交互 功能 ; 

。 XML 解析 和 操作 功能 ; 

。 根据 XMLHttpRequest 的 返回 信息 进行 相应 的 DOM 操作 ; 

。 一 些 特 殊 情 况 下 ,和 其 他 的 浏览 器 端 技术 如 Flash( 或 Java Applets) 等 集合 到 一 起 

应 用 。 

常用 的 工具 有 AjaxCaller、Flash JavaScript Integration Kit, Google AjaxSLT。 

@ 基于 服务 器 端的 应 用 框架 。 

服务 器 端 应 用 框架 ,通过 服务 器 端 生 成 HTML 和 JS 代码 在 传递 给 浏览 器 端 进行 直接 
运行 和 远程 交互 ; JavaScript 调用 服务 器 端 函数 (例如 调用 Java 函数 ) 并 返回 给 JavaScript 
的 回调 句柄 ,或 者 请 求 服务 器 端 数 据 信 息 , 如 Session 信息 .数据 库 查 询 等 。 


9.4 本 章 小 结 


本 章 介 绍 了 构成 云 计算 主要 的 关键 技术 一 一 Web 2.0 技术 。Web 2.0 是 相对 Web 1.0 
的 新 的 一 类 因特网 应 用 的 统称 。Web 2. 0 是 因特网 的 一 次 理念 和 思想 体系 的 升级 换代 ,由 
原来 自 上 而 下 由 少数 资源 控制 者 集中 控制 主导 的 因特网 体系 转变 为 自 下 而 上 由 广大 用 户 集 
体 智慧 和 力量 主导 的 因特网 体系 。 

Web 标准 不 是 某 一 个 标准 ,而 是 一 系列 标准 的 集合 。 网 页 主要 由 三 部 分 组 成 : 结构 、 表 
现 和 行为 。 对 应 的 标准 也 分 为 三 个 方面 : 结构 化 标准 语言 ,主要 包括 XHTML 和 XML; 表 
现 标 准 语言 ,主要 包括 CSS; 行为 标准 ,主要 包括 对 象 模型 (如 W3C DOM) ,ECMAScript 等 。 


绿色 数据 中 心 


数据 中 心 是 在 一 幢 建 筑 物 内 ,以 特定 的 业务 应 用 中 的 各 类 数据 为 核心 ,依托 IT 技术 ， 
按照 统一 的 标准 建立 数据 处 理 , 存 储 、 传 输 、 综 合 分 析 的 一 体 化 数据 信息 管理 体系 。 云 计算 
的 诞生 和 发 展 意味 着 更 加 高 效 地 应 用 IT 资源 ,节能 减 排 , 低 碳 环保 等 理念 逐渐 深入 人 心 ， 
绿色 数据 中 心 成 为 构成 云 计 算 的 相关 技术 。 


10.1 绿色 数据 中 心 概述 


绿色 数据 中 心 (Green Data Center) 是 指数 据 机 房 中 的 IT 系统 、 机 械 、 照 明和 电气 等 能 
取得 最 大 化 的 能 源 效 率 和 最 小 化 的 环境 影响 。 绿 色 数 据 中 心 是 数据 中 心 发 展 的 必然 。 总 的 
来 说 ,可 以 从 建筑 节能 、 运 营 管理 能源 效率 等 方面 来 衡量 一 个 数据 中 心 是 否 为 “绿色 ”。 绿 
色 数 据 中 心 的 “绿色 ”具体 体现 在 整体 的 设计 规划 及 机 房 空 调 .UPS、 服 务 器 等 IT 设备 .管理 
软件 应 用 上 ,要 具备 节能 环保 、 高 可 靠 可 用 性 和 合理 性 。 从 普通 数据 中 心 到 适应 云 计算 的 绿 
色 数 据 中 心 要 经 历 好 几 个 阶段 。 


10.1.1 云 数据 中 心 发 展 阶段 


云 计算 进入 商用 阶段 ,相对 于 传统 的 数据 中 心 , 云 数 据 中 心 可 以 逐渐 升级 。 从 提供 的 服 
务 方面 划分 ,普通 数据 中 心 向 云 计算 数据 中 心 进 阶 的 过 程 可 以 划分 为 4 个 阶段 : 托管 型 、 管 
理 服务 型 .托管 管理 型 和 云 计 算 管理 型 (就 是 所 谓 的 云 计 算 绿色 数据 中 心 ) 。 

1. 服务 器 托管 型 数据 中 心 

该 中 心 提供 IP 十 宽带 十 电力 。 

对 于 托管 型 数据 中 心 来 说 .服务 器 由 客户 自行 购买 安装 ,在 托管 期 间 对 设备 监控 及 管理 
工作 也 由 客户 自行 完成 。 数 据 中 心 主要 提供 IP 接 入 、 带 宽 接 入 、 电 力 供应 等 服务 。 简 而 言 
之 ,就 是 为 服务 器 提供 一 个 运行 的 物理 环境 。 云 主机 租用 。 
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2. 管理 服务 型 数据 中 心 

该 中 心 提 供 安装 .调试 ,监控 ,湿度 控制 十 IP/ 带 宽 /VPN 十 电力 。 

普通 客户 自行 购买 的 服务 器 设备 进入 到 管理 服务 型 数据 中 心 ,工程 师 将 完成 从 安装 到 
调试 的 整个 过 程 。 当 客户 的 服务 器 开始 正常 运转 ,与 之 相关 联 的 网 络 监控 (包括 IP、 带 宽 、 
流量 、 网 络 安全 等 ) 和 机 房 监控 (机 房 环境 参数 .机 电 设备 等 ) 也 随 之 开始 。 对 客户 设备 状态 进 
行 实 时 的 监测 以 提供 最 适宜 的 运行 环境 。 除 了 提供 全、 带宽 资源 外 ,还 提供 VPN 接 入 和 管理 。 

3. 托管 管理 型 数据 中 心 

该 中 心 提供 服务 器 /存储 十 咨询 十 自动 化 的 管理 和 监控 十 IP/ 带 宽 /VPN 十 电力 。 

相对 管理 服务 型 数据 中 心 ,托管 管理 型 数据 中 心 提供 的 不 仅 是 管理 服务 ,还 提供 着 服务 
器 和 存储 ,客户 不 需要 自行 购买 安装 服务 器 等 硬件 设备 即 可 使 用 数据 中 心 所 提供 的 存储 空 
间 和 物理 环境 。 同 时 ,相关 IT 咨询 服务 也 可 以 帮助 客户 选择 最 适合 的 IT 解决 方案 以 优化 
IT 管理 结构 。 

4. 云 计算 绿色 数据 中 心 

该 中 心 提供 IT 效能 托管 十 服务 器 /存储 十 咨询 十 自动 化 的 管理 和 监控 十 IP/ 带 宽 / 
VPN 十 电力 。 

云 计 算 绿色 数据 中 心 托管 的 是 计算 能 力 和 IT 可 用 性 ,而 不 再 是 客户 的 设备 。 数 据 在 
云端 进行 传输 , 云 计算 数据 中 心 为 其 调配 所 需 的 计算 能 力 ,并 对 整个 基础 构架 的 后 台 进 行 管 
理 。 从 软件 ,硬件 两 方面 运行 维护 ,软件 层面 不 断根 据 实际 的 网 络 使 用 情况 对 云 平 台 进行 调 
试 ,硬件 层面 保障 机 房 环 境 和 网 络 资源 正常 运转 调配 。 数 据 中 心 去 完成 整个 IT 的 解决 方 
案 ,客户 可 以 完全 不 用 操心 后 台 就 有 充足 的 计算 能 力 可 以 使 用 。 


10.1.2 绿色 数据 中 心 架构 


计算 机 技术 的 迅猛 发 展 促进 了 机 房 工 程 建 设 ,对 数据 中 心 的 安全 性 、 可 用 性 、 灵 活性 、 机 
架 化 \ 节 能 性 等 方面 提出 了 更 高 的 要 求 .绿色 数据 中 心 的 架设 综合 体现 在 节能 环保 、 高 可 靠 
可 用 性 和 合理 性 三 个 方面 ,其 架构 图 如 图 10-1 所 示 。 












































绿色 数据 中 心 架构 
节能 环保 高 可 靠 、 可 用 性 合理 性 
县 g p 

环保 材料 的 选择 基础 装饰 装修 系统 的 可 用 性 
节能 设备 的 应 用 供 配 电 系统 各 系统 的 均衡 性 
IT 运 维系 统 优化 UPS 系 统 结构 体系 标准 化 
避免 过 度 的 规划 制冷 与 气流 组 织 可 扩展 性 

新 风 系 统 智能 人 性 化 管理 

机 房 动力 环境 监控 

KVM 

消防 系统 

弱电 系统 

IT 设备 


图 10-1 绿色 数据 中 心 架 构 


157 


大 数据 云 服务 技术 架构 与 实践 





节能 环保 体现 在 环保 材料 的 选择 .节能 设备 的 应 用 IT 运 维系 统 的 优化 及 避免 数据 中 
心 过 度 的 规划 。 如 UPS 效率 的 提高 能 有 效 降低 对 电力 的 需求 ,达到 节能 的 目的 。 机 房 的 密 
封 、 绝 热 . 配 风 、 气 流 组 织 这 些 方面 如 果 设 计 合 理 将 会 降低 空调 的 使 用 成 本 。 进 一 步 考 虑 系 
统 的 可 用 性 、 可 扩展 性 ,各 系统 的 均衡 性 ,结构 体系 的 标准 化 ,以 及 智能 人 性 化 管理 ,能 降低 
整个 数据 中 心 的 成 本 CTCO) 。 


10.1.3 云 数据 中 心 需要 整合 的 资源 


未 来 云 计 算 , 按 需 提供 大 规模 信息 服务 ,是 对 现 有 业务 的 继承 和 发 展 ,因此 要 对 现 有 数 
据 中 心 和 相关 的 基础 设施 进行 整合 管理 。 具 体 来 说 有 三 个 层面 : 

CL) 设备 层面 。 需 要 实现 对 大 容量 设备 (上 万 台 服 务 器 和 网 络 设 备 ) 的 管理 ,同时 要 考 
虑 物理 上 分 布 式 部 署 .逻辑 上 统一 的 管理 需求 。 

(2) 业务 层面 。 需 要 实现 在 同一 个 平台 上 实现 对 IT 和 IP 设备 的 融合 ,可 以 从 业务 的 
角度 对 网 络 进行 管理 ,也 可 以 从 性 能 和 流量 的 角度 对 业务 进行 监控 和 优化 。 

(3) 服务 层面 。 需 要 提供 运 维 服务 方面 的 支持 ,帮助 IT 部 门 向 规范 化 、 可 审计 的 服务 
运营 中 心 转变 。 

总 的 来 说 , 云 数据 中 心 要 整合 好 各 种 资源 ,包括 设备 .应 用 、 流 量 . 服 务 等 ,为 将 来 建立 虚 
拟 化 资源 池 、 对 外 提供 云 服 务 打下 基础 。 


10.2 数据 中 心 管理 和 维护 








随 着 数据 中 心 ,超级 计算 、 云 计算 等 技术 与 概念 的 兴起 ,信息 产业 正经 历 着 从 商业 模式 、 
技术 架构 到 管理 运营 等 各 方面 的 巨大 变革 。 与 之 相应 的 云 数 据 中 心 管理 的 相关 话题 也 变 得 
越 来 越 热门 。 普 通 数据 中 心 管理 关注 重点 资源 和 业务 的 整合 ,可视化 和 虚拟 化 ,而 云 数 据 中 
心 管 理 关 注重 点 按 需 分 配 资源 和 云 的 收费 运营 等 。 云 数据 中 心 管理 主要 包括 基础 设施 管 
理 、 虚 拟 化 管理 `, 业 务 管 理 . 运 行 维护 管理 4 个 部 分 ,如 图 10-2 所 示 。 











虚拟 化 管理 
虚拟 化 资源 
自动 化 


SOA 开 放 软件 架 构 


运行 维护 管理 


基于 ITIL 的 运行 维护 服务 
管理 和 流程 优化 


图 10-2 数据 中 心 管理 解决 方案 模型 
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10.2.1 实现 端 到 端 \ 大 容量 、 可 视 化 的 基础 设施 整合 


数据 中 心 除 了 传统 的 网 络 、 安 全 设备 外 ,还 存在 存储 、 服 务 器 等 设备 ,这 要 求 对 常见 的 网 
管 功能 进行 重新 设计 ,包括 拓扑 、 告 警 、 性 能 \ 面 板 、 配 置 等 ,以 实现 对 基础 设施 的 整合 管理 。 
在 底层 协议 方面 ,需要 将 传统 的 SNMP( 简 单 网 络 管理 协议 ) 和 WMI、JMX 等 其 他 管理 协议 
进行 整合 ,以 同时 支持 对 IP 设备 和 IT 设备 的 管理 。 

在 软件 架构 方面 ,需要 考虑 上 万 台 设 备 对 管理 平台 性 能 的 冲击 ,因此 必须 采用 分 布 式 的 
架构 设计 ,让 管理 平台 可 以 同时 运行 在 多 个 物理 服务 器 上 ,实现 管理 负载 的 分 担 。 

数据 中 心 所 在 的 机 房 、 机 架 等 也 需要 进行 管理 ,这 些 靠 传 统 物理 拓扑 的 搜索 是 搜 不 出 来 
的 ,需要 考虑 增加 新 的 可 视 化 拓扑 管理 功能 ,让 管理 员 可 以 查看 如 分 区 .楼层 、 机 房 、 机 架 、 设 
备 面板 等 视图 ,方便 管理 员 从 各 个 维度 对 数据 中 心 的 各 种 资源 进行 管理 ,如 图 10-3 所 示 。 








图 10-3 数据 中 心 可 视 化 拓扑 视图 (机 房 . 机 架 等 ) 


10.2.2 实现 虚拟 化 .自动 化 的 管理 


传统 的 管理 软件 只 考虑 物理 设备 的 管理 ,对 于 虚拟 机 、 虚 拟 网 络 设备 等 虚拟 资源 无 法 识 
别 ,更 不 要 说 对 这 些 资源 进行 配置 。 然 而 ,数据 中 心虚 拟 化 和 自动 化 是 大 势 所 趋 ,虚拟 资源 
的 监控 、 部 署 与 迁移 等 需求 将 推动 数据 中 心 管理 平台 进行 新 的 变革 ,如 图 10-4 所 示 。 

对 于 虚拟 资源 ,需要 考虑 在 拓扑 、 设 备 等 信息 中 增加 相关 的 技术 支持 ,使 管理 员 能 够 在 
拓扑 图 上 同时 管理 物理 资源 和 虚拟 化 资源 ,查看 虚拟 网 络 设备 的 面板 ,以 及 虚拟 机 的 CPU、 
内 存 、 磁 盘 空 间 等 信息 ; 加 强 对 各 种 资源 的 配置 管理 能 力 , 能 够 对 物理 设备 和 虚拟 设备 下 发 
网 络 配 置 ,建立 配置 基线 模板 ,定期 自动 备份 ,并 且 支 持 虚 拟 网 络 环境 (VLAN、ACL、 QoS 
等 ) 的 迁移 和 部 署 ,满足 快速 部 署 、 业 务 迁 移 、 新 系统 测试 等 不 同 场景 的 需求 。 
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虚拟 化 网 络 设备 管理 
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图 10-4 数据 中 心虚 拟 化 资源 管理 


10.2.3 实现 面向 业务 的 应 用 管理 和 流量 分 析 


数据 中 心 存在 着 各 种 关键 业务 和 应 用 ,如 服务 器 ,操作 系统 、 数 据 库 、.Web 服务 .中 间 
件 、 邮 件 等 ,对 这 些 业务 系统 的 管理 应 该 遵循 高 可 靠 的 原则 ,采用 agentless 无 监控 代理 的 方 
式 进行 监控 ,尽量 不 影响 业务 系统 的 运行 。 

在 可 视 化 方面 ,为 了 便于 实现 IP 与 IT 的 融合 管理 ,需要 将 网 络 管理 与 业务 管理 的 功能 
进行 对 接 , 拓 扑 图 上 不 光 可 以 显示 设备 信息 ,也 可 以 显示 服务 器 菜单 运行 业务 及 详细 性 能 参 
数 。 另 外 ,数据 中 心 带 来 了 新 的 业务 模型 ,如 1 : N( 一 台 服务 器 运行 多 个 业务 )、N : 1( 多 台 
服务 器 运行 同一 个 业务 ) 和 N : M( 不 同业 务 间 的 流量 模型 ) ,这些 业务 对 于 数据 中 心 的 流量 
带 来 了 很 大 的 冲击 ,有 可 能 会 造成 流量 瓶颈 ,影响 业务 运行 ,如 图 10-5 所 示 。 


1:N 的 流量 模型 一 一 N:1 的 流量 模型 业务 间 的 流量 分 析 一 一 





单 台 服务 器 运行 多 个 业务 多 台 服 务 器 运行 单个 业务 多 个 业务 间 流 量 模型 
业务 1 ”业务 2 业务 n 


ose . 
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图 10-5 数据 中 心 业 务 流量 模型 
因此 ,可 以 对 诸如 流量 分 析 软 件 进行 改进 .提供 基于 NetFlow/NetStream/sFlow 等 流 
量 分 析 技 术 的 分 析 功 能 ,并 通过 各 种 可 视 化 的 流量 视图 对 业务 流量 中 的 接口 应用、 主机 、 会 
话 IP 组 .7 层 应 用 等 进行 分 析 , 从 而 找 出 瓶颈 ,规划 接口 带宽 ,满足 用 户 对 内 部 业务 进行 持 
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续 监 控 和 改进 的 流量 分 析 需 求 。 
10.3 本 章 小 结 


本 章 介绍 了 构成 云 计算 主要 的 关键 技术 一 一 绿色 数据 中 心 。 绿 色 数 据 中 心 (Green 
Data Center) 是 指数 据 机 房 中 的 IT 系统 、 机 械 、 照 明和 电气 等 能 取得 最 大 化 的 能 源 效率 和 
最 小 化 的 环境 影响 。 

云 数 据 中 心 管理 主要 包括 基础 设施 管理 \ 虚 拟 化 管理 ,业务 管理 和 运 维 管理 4 个 部 分 。 
实现 端 到 端 ,大 容量 ,可视化 的 基础 设施 整合 ,虚拟 化 .自动 化 的 管理 ,面向 业务 的 应 用 管理 
和 流量 分 析 。 
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基础 设施 即 服务 


基础 设施 即 服 务 (Infrastructure as a Service, 1aaS) 是 为 用 户 按 需 提供 基础 设施 资源 
(服务 器 /存储 和 网 络 ) 的 共享 服务 ,是 当前 业界 相对 成 熟 的 云 计算 服务 形式 。 本 章 主 要 对 
TaaS 的 定义 /特征 进行 立 述 ,接着 进一步 探讨 Taas 管理 平台 的 架构 ,最 后 对 Taas 领域 
Amazon 的 代表 产品 EC2 进行 介绍 。 


11.1 laaS 概述 


要 实现 信息 化 ,就 需要 一 系列 的 应 用 软件 来 处 理应 用 的 业务 逻辑 ,还 需要 将 数据 以 结构 
化 或 非 结构 化 的 形式 保存 起 来 ,也 要 构造 应 用 软件 与 使 用 者 之 间 的 桥梁 ,使 应 用 软件 的 使 用 
者 可 以 使 用 应 用 软件 获取 或 保存 数据 。 这 些 应 用 软件 需要 一 个 完整 的 平台 以 支撑 它 的 运 
行 , 这 个 平台 通常 包括 网 络 、 服 务 器 和 存储 系统 等 构成 企业 IT 系统 的 硬件 环境 ,也 可 以 包 
括 操 作 系 统 、 数 据 库 、 中 间 件 等 基础 软件 ,这 个 由 IT 系统 的 硬件 环境 和 基础 软件 共同 构成 
的 平台 称 为 IT 基础 设施 。IaaS 可 以 将 这 些 硬件 和 基础 软件 以 服务 的 形式 交付 给 用 户 ,使 
用 户 可 以 在 这 个 平台 上 安装 部 署 各 自 的 应 用 系统 。 


11.1.1 Iaas 的 定义 


IaaS 是 指 将 IT 基础 设施 能 力 ( 如 服务 器 .存储 .计算 能 力 等 ) 通 过 网 络 提供 给 用 户 使 
用 ,并 根据 用 户 对 资源 的 实际 使 用 量 或 占用 量 进行 计 费 的 一 种 服务 。 因 此 ,IaaS 的 服务 通 
常 包括 以 下 部 分 : 

(1) 网 络 和 通信 系统 提供 的 通信 服务 。 

(2) 服务 器 设备 提供 的 计算 服务 。 

(3) 数据 存储 系统 提供 的 存储 服务 。 
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11.1.2 IaaS 提供 服务 的 方法 


首先 ,IaaS 云 服务 的 提供 者 会 依照 其 希望 提供 的 服务 建设 相应 的 资源 池 , 即 通过 虚拟 
化 或 服务 封装 的 手段 将 IT 设备 可 提供 的 各 种 能 力 , 如 通信 能力 、 计 算 能 力 、 存 储 能 力 等 构 
建成 资源 池 , 在 资源 池 中 这 种 能 力 可 以 被 灵活 的 分 配 、 使 用 与 调度 。 但 由 一 种 资源 池 提 供 的 
服务 的 功能 较 单一 ,不 能 直接 满足 应 用 系统 的 运行 要 求 ,IaaS 提供 者 需 将 几 种 资源 池 提 供 
的 服务 进行 组 合 ,包装 成 IaaS 服务 产品 。 例 如 一 个 虚拟 化 服务 器 (VM) 产 品 可 能 需要 来 自 
网 络 和 通信 服务 的 IP 地 址 和 VLAN ID, 需 要 来 自 计算 服务 的 虚拟 化 服务 器 ,需要 来 自 存 储 
服务 的 存储 空间 ,还 可 能 需要 来 自 软件 服务 的 操作 系统 。 

同时 ,IaaS 提供 者 还 需要 将 能 够 提供 的 服务 组 织 成 IaaS 服务 目录 ,以 说 明 能 够 提供 何 
种 IaaS 服务 产品 ,使 IaaS 使 用 者 可 以 根据 应 用 系统 运行 的 需要 选 购 IaaS 产品 。IaaS 提供 
者 通常 以 产品 包 的 形式 向 IaaS 使 用 者 交付 IaaS 产品 ,产品 包 可 能 很 小 ,也 可 能 很 大 ,小 到 
一 台 运 行 某 种 操作 系统 的 服务 器 ,大 到 襄 括 支持 应 用 系统 运行 的 所 有 基础 设施 ,包括 网 络 、 
安全 ,数据 处 理 和 数据 存储 等 多 种 产品 ,IaaS 使 用 者 可 以 像 使 用 直接 采购 的 物理 硬件 设备 
和 软件 设备 一 样 使 用 IaaS 提供 的 服务 产品 。 


11.1.3 IaaS 云 的 特征 


作为 云 服 务 的 一 种 类 型 , IaaS 服务 同样 具备 云 服务 的 特征 ,同时 具备 IaaS 云 独 有 的 
特性 。 

1. 随 需 自 服务 

对 于 IaaS 服务 的 使 用 者 ,从 IaaS 服务 产品 的 选择 ,发 出 服务 订单 ,获取 和 使 用 IaaS 服 
务 产品 ,到 注销 不 再 需要 的 产品 都 可 以 通过 自助 服务 的 形式 进行 ; 对 于 IaaS 服务 的 提供 
者 ,从 IaaS 服务 订单 确认 ,服务 资源 的 分 配 ,服务 产品 的 组 装 生产 ,到 对 服务 包 交 付 过 程 中 
全 生命 周期 的 管理 都 使 用 了 自动 化 的 管理 工具 ,可 以 随时 响应 使 用 者 提出 的 请 求 。 

2. 广泛 的 网 络 接 入 

TaaS 获取 和 使 用 IaaS 服务 都 需要 通过 网 络 进行 ,网 络 成 为 连接 服务 提供 者 和 使 用 者 的 
纽带 。 同 时 ,在 云 服务 广泛 存在 的 情况 下 ,IaaS 服务 的 提供 者 也 会 是 服务 的 使 用 者 ,这 不 单 
是 指 支撑 laas 提供 者 服务 的 应 用 系统 运行 在 云端 (Run Cloud on Cloud) ,IaaS 提供 者 还 可 
能 通过 网 络 获取 其 他 提供 者 提供 的 各 种 云 服 务 , 以 丰富 自身 的 产品 目录 。 

3. 资源 池 化 
IaaS 服务 的 资源 池 化 是 指 通过 虚拟 化 或 服务 封装 的 手段 将 IT 设备 可 提供 的 各 种 能 

,如 通信 能 力 、 计 算 能 力 、 存 储 能 力 等 构建 成 资源 池 , 在 资源 池 中 这 种 能 力 可 以 被 灵活 地 分 
\ 使 用 与 调度 。 各 种 各 样 的 能 力 被 封装 为 各 种 各 样 的 服务 ,进一步 组 成 各 种 各 样 的 服务 产 
品 。 使 用 者 为 使 用 某 种 能 力 而 选择 某 种 服务 产品 .而 真正 的 能 力 提供 者 是 资源 池 。 

4. 快速 扩展 

在 资源 池 化 后 ,用 户 所 需要 或 订购 的 能 力 和 资源 池 能 够 提供 的 能 力 相 比 较 是 微不足道 
的 ,因此 ,对 某 个 用 户 来 说 ,资源 池 的 容量 是 无 限 的 ,可 以 随时 获得 所 需 的 能 力 。 另 一 方面 ， 
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对 服务 提供 者 来 说 ,资源 池 的 容量 一 部 分 来 自 底层 的 硬件 设施 ,可 以 随时 采购 ,不 会 过 多 受 
到 来 自 应 用 系统 需求 的 制约 ; 另 一 部 分 可 能 来 自 其 他 云 服务 的 提供 者 , 它 可 以 整合 多 个 提 
供 者 的 资源 为 用 户 提供 服务 。 

5. 服务 可 度量 

不 论 是 公有 云 还 是 私有 云 ,服务 的 使 用 者 和 提供 者 之 间 都 会 对 服务 的 内 容 与 质量 有 一 
个 约定 (SLA), 为 了 保证 SLA 的 达成 ,提供 者 需要 对 提供 的 服务 进行 度量 与 评价 ,以 便 对 所 
提供 的 服务 进行 调度 、 改 进 与 计 费 。 


11.1.4 IaaS 和 虚拟 化 的 关系 


服务 器 虚拟 化 与 IaaS 云 既 有 密切 的 联系 又 有 本 质 的 区 别 , 不 能 混为一谈 。 

首先 ,服务 器 虚拟 化 是 一 种 虚拟 化 技术 , 它 将 一 台 或 多 台 物 理 服 务 器 的 计算 能 力 组 
合 在 一 起 ,组 成 计算 资源 池 , 并 能 够 从 计算 资源 池 中 分 配 适 当 的 计算 能 力 重 新 组 成 虚拟 
化 的 服务 器 。 常 见 的 服务 器 虚拟 化 技术 包括 x86 平台 上 的 VMware, 微软 公司 Hyper-V, 
Xen 和 KVM 等 ,IBM Power 平台 上 的 PowerVM,Oracle Sun 平台 中 的 Sun Fire 企业 级 服 
务 器 动态 系统 域 ,T5000 系列 服务 器 支持 的 LDOM, Solaris 10 操作 系统 支持 的 Container 
等 。 服 务 器 虚拟 化 和 网 络 虚 拟 化 (如 VLAN) 及 存储 虚拟 化 都 是 数据 中 心中 常见 的 虚拟 化 
技术 。 

而 IaaS 云 是 一 种 业务 模式 , 它 以 服务 器 虚拟 化 ,网络 虚 拟 化 ,存储 虚拟 化 等 各 种 虚拟 化 
技术 为 基础 ,向 云 用 户 提 供 各 种 类 型 的 服务 。 为 了 达到 这 一 目的 ,IaaS 云 的 运营 者 首先 需 
要 对 通过 各 种 虚拟 化 技术 构成 的 资源 池 进 行 有 效 的 管理 ,并 能 够 向 云 用 户 提供 清晰 的 服务 
目录 以 说 明 IaaS 云 能 够 提供 何 种 服务 ,同时 能 够 对 已 经 交付 给 云 用 户 的 服务 进行 监控 与 管 
理 , 以 满足 服务 的 SLA 需求 ,这 些 工作 都 属于 laas 云 业 务 管理 体系 的 内 容 。 由 此 可 见 ， 
IaaS 云 较 服务 器 虚拟 化 具有 更 多 的 内 容 。 

另 一 方面 ,服务 器 虚拟 化 又 是 laas 云 的 关键 技术 之 一 ,通常 也 是 IaaS 建设 过 程 中 第 
一 个 关键 性 步骤 ,很 多 企业 都 希望 从 服务 器 虚拟 化 入 手 进 行 IaaS 云 建设 。 在 服务 器 虚拟 
化 建设 完成 后 ,要 达到 TaaS 云 的 建设 目标 还 要 完成 IaaS 云 的 业务 管理 体系 的 建设 等 
工作 。 





11.2 laaS 技术 架构 


IaaS 通过 采用 资源 池 构 建 .资源 调度 ,服务 封装 等 手段 ,可 以 将 资源 池 化 ,实现 IT 资产 
向 IT 资源 按 需 服务 的 迅速 转变 。 

通常 来 讲 ,基础 设施 服务 (IaaS) 的 总 体 技术 架构 主要 分 为 资源 层 、 虚 拟 化 层 、 管 理 层 和 
服务 层 在 内 的 4 层 架构 ,如 图 11-1 所 示 。 


11.2.1 资源 层 


位 于 架构 最 底层 的 是 资源 层 ,主要 包含 数据 中 心 所 有 的 物理 设备 ,如 硬件 服务 器 、 网 络 
设备 ,存储 设备 及 其 他 硬件 设备 。 在 基础 架构 云 平台 中 ,位 于 资源 层 中 的 资源 不 是 独立 的 物 
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理 设备 个 体 , 而 是 组 成 一 个 集中 的 资源 池 , 因 此 资源 层 中 的 所 有 资源 将 以 池 化 的 概念 出 现 。 
这 种 汇总 或 者 池 化 不 是 物理 上 的 ,而 是 一 种 概念 , 指 的 是 资源 池 中 的 各 种 资源 都 可 以 由 
TaaS 的 管理 人 员 进 行 统一 的 、 集 中 的 运 维和 管理 ,并 且 可 以 按照 需要 随意 地 进行 组 合 ,形成 
一 定 规模 的 计算 资源 ,或 者 计算 能 力 。 











自助 服务 门户 管理 门户 
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图 11-1 TaaS 的 技术 架构 
资源 层 的 主要 资源 如 下 : 


CL) 计算 资源 。 计 算 资源 指 的 是 数据 中 心中 各 类 计算 机 的 硬件 配置 ,如 机 架 式 服务 器 、 
刀片 服务 器 工作站、 桌面 计算 机 、 笔 记 本 等 。 

在 IaaS 架构 中 ,计算 资源 是 一 个 大 型 资源 池 , 不 同 于 传统 数据 中 心 的 最 明显 特点 是 计 
算 资源 可 动态 .快速 地 重新 分 配 ,并 且 不 需要 中 断 应 用 或 者 业务 。 不 同时 间 , 同 一 计算 资源 
被 不 同 的 应 用 或 者 虚拟 机 使 用 。 

(2) 存储 资源 。 存 储 资源 一 般 分 为 本 地 存储 和 共享 存储 。 本 地 存储 指 的 是 直接 连接 在 
计算 机 上 的 磁盘 设备 ,例如 PC 普通 硬盘 ,服务 器 高 速 硬盘 .外 置 USB 接口 硬盘 等 ; 共享 存 
储 一 般 指 的 是 NAS、SAN 或 者 iSCSI 设备 ,这 些 设 备 通常 由 专用 的 存储 厂 提 供 。 

在 IaaS 架构 中 ,存储 资源 的 主要 目的 除了 存放 应 用 数据 或 者 数据 库 之 外 ,更 主要 的 用 
途 是 存放 大 量 的 虚拟 机 。 而 且 在 合理 设计 的 IaaS 架构 中 ,由 于 应 用 高 可 用 性 、 业 务 连续 性 
等 因素 ,一 般 都 会 选择 在 共享 存储 中 存放 虚拟 机 ,而 不 是 本 地 存储 中 。 

G) 网 络 资源 。 网 络 资源 一 般 分 为 物理 网 络 和 虚拟 网 络 。 物 理 网 络 指 的 是 主 硬件 网 络 
接口 (NIC) 连 接 物理 交换 机 或 其 他 网 络 设备 的 网 络 。 虚 拟 网 络 是 人 为 建立 的 网 络 连接 ,其 
连接 的 另 一 方 通常 是 虚拟 交换 机 或 者 虚拟 网 卡 。 为 了 适应 架构 的 复杂 性 ,满足 多 种 网 络 架 
构 的 需求 ,IaaS 架构 中 的 虚拟 网 络 可 以 具有 多 种 功能 ,在 前 面 虚拟 化 中 网 络 虚拟 化 已 提 到 。 

虚拟 网 络 资源 往往 带 有 物理 网 络 的 特征 ,例如 可 以 为 其 指定 VLAN ID, 人 允许 虚拟 网 络 
划分 虚拟 子 网 。 


11.2.2 虚拟 化 层 


位 于 资源 层 之 上 的 是 虚拟 化 层 ,虚拟 化 层 的 作用 是 按照 用 户 或 者 业务 的 需求 ,从 资源 池 
中 选择 资源 并 打包 ,从 而 形成 虚拟 机 应 用 于 不 同 规模 的 计算 。 如 果 从 池 化 资源 层 中 选择 了 
两 个 物理 CPU、4GB 物理 内 存 .100GB 存储 , 便 可 以 将 以 上 资源 打包 ,形成 一 台 虚 拟 机 。 
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虚拟 化 层 是 实现 IaaS 的 核心 模块 ,位 于 资源 层 与 管理 层 中 间 , 包 含 各 种 虚拟 化 技术 , 主 
要 作用 是 为 laas 架构 提供 最 基本 的 虚拟 化 实现 。 针 对 虚拟 化 平台 ,IaaS 应 该 具备 完善 的 运 
维 、 管 理 功能 。 这 些 管理 功能 以 虚拟 化 平台 中 的 内 容 及 各 类 资源 为 主要 操作 对 象 ,而 对 虚拟 
化 平台 加 以 管理 的 目的 是 保证 虚拟 化 平台 的 稳定 运行 ,可 以 随时 顺畅 地 使 用 平台 上 的 资源 
及 随时 了 解 平台 的 运行 状态 。 虚 拟 化 平台 主要 包括 虚拟 化 模块 .虚拟 机 、 虚 拟 网 络 、. 虚 拟 存 
储 及 虚拟 化 平台 所 需要 的 所 有 资源 ,包括 物理 资源 及 虚拟 资源 ,如 虚拟 机 镜像 .虚拟 磁盘 、 虚 
拟 机 配置 文件 等 。 其 主要 功能 包括 以 下 几 种 : 

(1) 对 虚拟 化 平台 的 支持 。 

(2) 虚拟 机 管理 (创建 .配置 .删除 .启动 .停止 等 ) 。 

(3) 虚拟 机 部 署 管理 (克隆 .迁移 .P2V、V2V) 。 

(4) 虚拟 机 高 可 用 性 管理 。 

(5) 虚拟 机 性 能 及 资源 优化 。 

(6) 虚拟 网 络 管理 。 

(7) 虚拟 化 平台 资源 管理 。 

正 是 因为 有 了 虚拟 化 技术 , 才 可 以 灵活 地 使 用 物理 资源 构建 不 同 规模 、 不 同 能 力 的 计算 
资源 ,并 可 以 动态 .灵活 地 对 这 些 计算 资源 进行 调配 。 因 此 ,对 于 IaaS 架构 的 运 维 中 ,针对 
虚拟 化 平台 的 管理 是 必 不 可 少 的 ,这 也 是 极其 重要 的 一 个 部 分 。 


11.2.3 管理 层 


虚拟 化 层 之 上 为 管理 层 ,管理 层 主要 对 下 面 的 资源 层 进行 统一 的 运 维 和 管理 ,包括 收集 
资源 的 信息 ,了 解 每 种 资源 的 运行 状态 和 性 能 情况 ,决定 如 何 借助 虚拟 化 技术 选择 ,打包 不 
同 的 资源 ,以 及 如 何 保证 打包 后 的 计算 资源 一 一 虚拟 机 的 高 可 用 性 或 者 如 何 实现 负载 均 
衡 等 。 

通过 管理 层 ,一 方面 可 以 了 解 虚拟 化 层 和 资源 层 的 运行 情况 及 计算 资源 的 对 外 提供 情 
况 ; 另 一 方面 ,也 是 更 重要 的 一 点 ,管理 层 可 以 保证 虚拟 化 层 和 资源 层 的 稳定 、 可 靠 ,从 而 为 
最 上 层 的 服务 层 打 下 坚实 的 基础 。 

管理 层 的 主要 构成 包括 以 下 几 个 部 分 : 

1. 资源 配置 模块 

资源 配置 模块 作为 资源 层 的 主要 管理 任务 处 理 模块 ,管理 人 员 可 以 通过 资源 配置 模块 
方便 、 快 速 地 建立 不 同 的 资源 ,包括 计算 资源 .网 络 资源 和 存储 资源 。 除 此 之 外 ,管理 人 员 还 
应 该 能 够 按照 不 同 的 需求 灵活 地 分 配 资源 ,修改 资源 分 配 情况 等 。 

2. 系统 监控 平台 

在 IaaS 架构 中 ,管理 层 位 于 虚拟 化 层 与 服务 层 之 间 。 管 理 层 的 主要 任务 是 对 整个 laas 
架构 进行 运 维和 管理 ,因此 其 包含 的 内 容 非 常 广泛 ,主要 有 配置 管理 、 数 据 保护 、 系 统 部 署 和 
系统 监控 。 

3. 数据 备份 与 恢复 平台 

同系 统 监控 一 样 ,数据 备份 与 恢复 也 属于 位 于 虚拟 化 层 与 服务 层 之 间 的 管理 层 中 的 一 
部 分 。 数 据 备 份 与 恢复 的 作用 是 帮助 IT 运 维 、 管 理 人 员 按照 提前 制订 好 的 备份 计划 进行 
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各 种 类 型 数据 、 各 种 系统 中 数据 的 备份 .并 在 任何 需要 的 时 候 恢复 这 些 备份 数据 。 

4. 系统 运 维 中 心平 台 

在 IaaS 架构 中 包含 各 种 各 样 的 专用 模块 ,这 些 模块 需要 一 个 总 的 接口 ,一 方面 能 够 连 
接 到 所 有 的 模块 ,对 其 进行 控制 ,得 到 各 个 模块 的 返回 值 ,从 而 实现 交互 ; 另 一 方面 需要 能 
够 提供 人 机 交互 界面 ,便于 管理 人 员 进行 操 作 、 管 理 , 这 就 是 IaaS 中 的 系统 运 维 中 心平 台 。 

5. IT 流程 的 自动 化 平台 

位 于 服务 层 的 管理 平台 主要 是 IT 流程 的 自动 化 平台 。 在 传统 数据 中 心中 ,IT 管理 人 
员 的 任务 往往 是 单一 的 、 任 务 化 的 。 即 使 数据 中 心包 含 多 个 模块 ` 组 成 部 分 ,但 管理 人 员 所 
需要 进行 的 工作 往往 只 发 生 在 一 个 独立 的 系统 中 , 且 通 过 简单 的 步骤 或 者 过 程 即 可 完成 。 
既 不 需要 牵扯 到 其 他 的 模块 组 成 部 分 ,同时 参与 的 人 员 数 量 也 相对 较 小 ,大 部 分 的 工作 通 
过 手工 或 半自动 的 方式 即 可 完成 ,因此 对 于 服务 流程 自动 化 的 需求 相对 较 低 。 


11.2.4 服务 层 


服务 层 位 于 整体 架构 的 最 上 层 , 主 要 向 用 户 提供 使 用 管理 层 、 虚 拟 化 层 和 资源 层 的 接 
口 。 不 论 是 通过 虚拟 化 技术 将 不 同 的 资源 打包 形成 虚拟 机 ,还 是 动态 调配 这 些 资源 , IaaS 
的 管理 人 员 和 用 户 都 需要 统一 的 界面 来 进行 跨越 多 层 的 复杂 操作 。 

服务 门户 可 对 资源 进行 综合 运行 监控 管理 ,一 目 了 然 地 掌控 多 时 运行 状态 。 

(1) 服务 器 资源 信息 。 这 里 是 用 户 所 拥有 的 服务 器 信息 一 览 ,可 以 直观 地 看 到 服务 器 
所 处 的 健康 状况 。 

(2) 应 用 程序 信息 。 这 里 是 用 户 在 自己 服务 器 上 安装 的 应 用 程序 的 信息 ,可 以 直观 地 
看 到 应 用 程序 的 健康 状况 。 

(3) 资源 统计 信息 。 即 用 户 拥有 资源 的 一 个 综合 汇总 信息 。 

(4) 系统 报警 信息 。 这 里 是 系统 告警 信息 的 一 个 汇总 。 

(5) 由 云 数 据 中 心 提供 的 各 类 增值 服务 ,如 系统 升级 维护 、 数 据 备份 / 恢 复 、 系 统 告警 、 
运行 趋势 分 析 等 。 

另外 ,对 所 有 基于 资源 层 、 虚 拟 化 层 、 管 理 层 ,但 又 不 限于 这 几 层 资源 的 运 维和 管理 任务 
将 被 包含 在 服务 层 中 。 这 些 任务 在 面 对 不 同业 务 时 往往 有 很 大 的 差别 ,其 中 包含 比较 多 的 
自 定义 ,个 性 化 因素 ,例如 用 户 账 号 管理 .用户 权限 管理 ,虚拟 机 权限 设 定 及 其 他 各 类 服务 。 








11.3 laaS 云 计 算 管 理 


IaaS 需要 将 经 过 虚拟 化 的 资源 进行 有 效 整合 ,形成 可 统一 管理 .灵活 分 配 调 度 ,动态 迁 
移 、 计 费 度量 的 基础 服务 设施 资源 池 , 并 按 需 向 用 户 提供 自动 化 服务 ,因而 需要 对 基础 设施 
进行 有 效 管理 。 


11.3.1 自动 化 部 署 
自动 化 部 署 包 含 两 部 分 的 内 容 : 一 部 分 是 在 物理 机 上 部 署 虚拟 机 , 另 一 部 分 是 将 虚拟 
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机 从 一 台 物 理 机 迁移 到 另 一 台 物 理 机 。 前 者 是 初次 部 署 , 后 者 是 迁移 。 

1. 初次 部 署 

虚拟 化 的 好 处 在 于 IT 资源 的 动态 分 配 所 带 来 的 成 本 降低 。 为 了 提高 物理 资源 的 利用 
率 , 降 低 系统 运营 成 本 ,自动 化 一 部 署 过 程 首 先 要 合理 地 选择 目标 物理 服务 器 。 通 常 部 署 会 
考虑 以 下 要 素 : 

(1) 尽量 不 启动 新 的 物理 服务 器 。 为 了 降低 能 源 开销 ,应 该 尽量 将 虚拟 机 部 署 到 已 经 
部 署 了 其 他 虚拟 机 的 物理 服务 器 上 ,尽量 不 启动 物理 服务 器 。 

(2) 尽 可 能 让 CPU 和 1/0 资源 互补 。 有 的 虚拟 机 所 承载 的 业务 是 CPU 消耗 型 的 ,而 
有 的 虚拟 机 所 承载 的 业务 是 I/O 消耗 型 的 ,那么 通过 算法 让 两 种 不 同类 型 的 业务 尽 可 能 分 
配 到 同一 台 物 理 服 务 器 上 ,以 最 大 化 地 利用 该 物理 服务 器 的 资源 ,或 者 在 物理 服务 器 层面 上 
进行 定制 ,将 物理 服务 器 分 为 1O 消耗 型 .CPU 消耗 型 及 内 存 消耗 型 ,然后 在 用 户 申请 虚拟 
机 的 时 候 配 置 虚拟 机 的 资源 消耗 类 型 ,最 后 根据 资源 消耗 类 型 将 虚拟 机 分 配 到 物理 服务 
BE. 

在 实际 的 部 署 过 程 中 ,如 果 让 用 户 安装 操作 系统 会 费时 费力 。 为 了 简化 部 署 过 程 ,系统 
模板 出 现 了 。 系 统 模板 其 实 就 是 一 个 预 装 了 操作 系统 的 虚拟 磁盘 映像 ,用 户 只 要 在 启动 虚 
拟 机 时 挂 接 映像 ,就 可 以 使 用 操作 系统 。 

2. 迁移 

当 一 台 服 务 器 需要 维护 时 ,或 者 由 于 资源 限制 ,服务 器 上 的 虚拟 机 都 应 迁移 到 另 一 台 物 
理 机 上 时 ,通常 要 具备 两 个 条 件 : 虚拟 机 自身 能 够 支持 迁移 功能 ; 物理 服务 器 之 间 有 共享 
存储 。 

虚拟 机 实际 上 是 一 个 进程 ,该 进程 由 两 部 分 构成 : 一 部 分 是 虚拟 机 操作 系统 , 另 一 部 分 
则 是 该 虚拟 操作 系统 所 用 到 的 设备 。 虚 拟 操作 系统 其 实 是 一 大 片 内 存 , 因 此 迁移 虚拟 机 就 
是 迁移 虚拟 机 操作 系统 所 处 的 整个 内 存 , 并 且 把 整个 外 设 全 部 迁移 ,使 操作 系统 感觉 不 到 外 
设 发 生 了 变化 。 这 就 是 迁移 的 基本 原理 。 


11.3.2 弹性 能 力 提 供 技术 


通常 ,用 户 在 构建 新 的 应 用 系统 时 都 会 按照 负载 的 最 高 峰值 进行 资源 配置 ,而 系统 的 负 
载 在 大 部 分 时 间 内 都 处 于 较 低 的 水 平 ,导致 了 资源 的 浪费 。 但 如 果 按 照 平均 负载 进行 资源 
配置 ,一 旦 应 用 达到 高 峰 负载 时 将 无 法 正常 提供 服务 ,影响 应 用 系统 的 可 用 性 及 用 户 体验 。 
所 以 ,在 平衡 资源 利用 率 和 保障 应 用 系统 的 可 用 性 方面 总 是 存在 着 矛盾 。 云 计算 以 其 弹性 
资源 提供 方式 正好 可 以 解决 目前 所 面临 的 资源 利用 率 与 应 用 系统 可 用 性 之 间 的 矛盾 。 

弹性 能 力 提供 通常 有 两 种 模式 : 

1. 资源 向 上 /下 扩展 (Scale Up/Down) 

资源 向 上 扩展 是 指 当 系统 资源 负载 较 高 时 .通过 动态 增 大 系统 的 配置 ,包括 CPU、 内 
存 、 硬 盘 、 网 络 带宽 等 来 满足 应 用 对 系统 资源 的 需求 。 资 源 向 下 扩展 是 指 当 系统 资源 负载 较 
低 时 ,通过 动态 缩小 系统 的 配置 ,包括 CPU 内存、 硬盘 、 网 络 带宽 等 来 提高 系统 的 资源 利用 
率 。 小 型 机 通常 采用 这 种 模式 进行 扩展 。 
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2. 资源 向 外 /内 扩展 (Scale Out/In) 

资源 向 外 扩展 是 指 当 系统 资源 负载 较 高 时 ,通过 创建 更 多 的 虚拟 服务 器 提供 服务 ,分 担 
原 有 服务 器 的 负载 。 资 源 向 内 扩展 是 指 当 由 多 台 虚 拟 服务 器 组 成 的 集群 系统 资源 负载 较 低 
时 ,通过 减少 集群 中 虚拟 服务 器 的 数量 来 提升 整个 集群 的 资源 利用 率 。 通 常 所 说 的 云 计 算 
即 采用 这 种 模式 进行 扩展 。 

为 了 实现 弹性 能 力 的 提供 ,需要 首先 设 定 资源 监控 阔 值 (包括 监控 项 目 和 阔 值 )、 弹 性 资 
源 提供 策略 (包括 弹性 资源 提供 模式 、 资 源 扩展 规模 等 ) ,然后 对 资源 监控 项 目 进 行 实时 监 
测 。 当 发 现 超过 阔 值 时 ,系统 将 根据 设 定 的 弹性 资源 提供 策略 进行 资源 的 扩展 。 

对 于 资源 向 外 /内 扩展 ,由 于 是 通过 创建 多 个 虚拟 机 来 扩展 资源 的 ,因此 需要 解决 : 虚 
拟 机 文件 的 自动 部 署 , 即 将 原 有 虚拟 机 文件 复制 ,生成 新 的 虚拟 机 文件 ,并 在 另 一 台 物 理 服 
务 器 中 运行 ; 多 台 虚 拟 机 的 负载 均衡 。 负 载 均衡 的 解决 有 两 种 方式 : 一 种 是 由 应 用 自己 进 
行 负载 均衡 的 实现 , 即 应 用 中 有 一 些 节点 不 负责 具体 的 请 求 处 理 , 而 是 负责 请 求 的 调度 ; 另 
一 种 是 由 管理 平台 来 实现 负载 均衡 , 即 用 户 在 管理 平台 上 配置 好 均衡 的 策略 ,管理 平台 根据 
预先 配置 的 策略 对 应 用 进行 监控 ,一 旦 某 监 控 值 超过 了 阔 值 , 则 自动 调度 另 一 台 虚 拟 机 加 入 
该 应 用 ,并 将 一 部 分 请 求 导入 该 虚拟 机 进行 分 流 ,或 者 当 流量 低 于 某 一 阔 值 时 自动 回收 一 台 
虚拟 机 ,减少 应 用 对 虚拟 机 的 占用 。 


11.3.3 资源 监控 


1. 资源 监控 概念 

虚拟 化 技术 引入 ,需要 新 的 工具 监控 虚拟 化 层 ,保障 IT 设施 的 可 用 性 、 可 靠 性 、 安 全 性 。 
传统 资源 监控 的 主要 对 象 是 物理 设施 (如 服务 器 ,存储 ,网络 ) ,操作 系统 、 应 用 与 服务 程序 。 由 
于 虚拟 化 的 引入 ,资源 可 以 动态 调整 ,因此 增加 了 系统 监控 的 复杂 性 。 主 要 表现 以 下 方面 : 

1) 状态 监控 

状态 监控 监控 所 有 物理 资源 和 虚拟 资源 的 工作 状态 ,包括 物理 服务 器 、 虚 拟 化 软件 
(VMM) ,虚拟 服务 器 .物理 交 换 机 与 路 由 器 .虚拟 交换 机 与 路 由 器 .物理 存储 与 虚拟 存 
储 等 。 

2) 性 能 监控 

IaaS 虚拟 资源 的 性 能 监控 分 为 两 个 部 分 : 基本 监控 和 虚拟 化 监控 。 基 本 性 能 监控 主要 
是 从 虚拟 机 操作 系统 VMM 的 角度 来 监视 与 度量 CPU 内存、 存储、 网 络 等 设施 的 性 
能 。 与 虚拟 化 相关 的 监控 主要 提供 关于 虚拟 化 技术 的 监控 度量 指标 ,如 虚拟 机 部 署 的 时 间 、 
迁移 的 时 间 、 集 群 性 能 等 。 

3) 容量 监控 

当前 企业 对 IT 资源 的 需求 不 断 变 化 ,这 就 需要 做 出 长 期 准确 的 IT 系统 规划 。 

因此 ,容量 监控 是 一 种 从 整体 ,宏观 的 角度 长 期 进行 的 系统 性 能 监控 。 容 量 监控 的 度量 
指标 包括 服务 器 内存、 网 络 、 存 储 资 源 的 平均 值 和 峰值 使 用 率 , 以 及 达到 资源 瓶颈 的 临界 用 
户 数 量 。 

4) 安全 监控 

在 IaaS 环境 除了 存在 传统 的 IT 系统 安全 问题 外 .虚拟 化 技术 的 引入 也 带 来 新 的 安全 
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问题 ,虚拟 机 草 生 (CSprawl) 现 象 导 致 虚拟 化 层 的 安全 威胁 。 

。 传统 安全 监控 。 包 括 入 侵 检 测 、 漏 洞 扫描 ,病毒 扫描 、 网 络 风暴 检测 等 。 

。 虚拟 机 功 生 活动 监控 。 监 控 虚 拟 机 的 活动 ,如 虚拟 机 克隆 、 复 制 、 迁 移 、 网 络 切换 \ 存 
储 切换 等 。 

合 规 监控 。 监 控 各 种 操作 、 配 置 是 否 符合 标准 及 规范 ,强化 使 用 正版 软件 检测 违背 
IT 管理 策略 的 事件 等 。 
访问 控制 监控 。 监 控 用 户 访问 行为 和 对 用 户 访 问 行为 进行 监控 。 

5) 使 用 量度 量 

为 了 使 TaaS 服务 具备 可 运营 的 条 件 , 需 要 度量 不 同 组 织 、 团 体 、 个 人 使 用 资源 和 服务 的 
情况 ,有 了 这 些 度量 信息 便 可 以 生成 结算 信息 和 账单 。 为 了 实现 资源 度量 监控 ,需要 收集 以 
下 方面 的 信息 : 

。 服务 使 用 时 间 : 包括 计算 、 存 储 、 网 络 等 服务 的 使 用 时 间 。 

。 配置 信息 : 包括 虚拟 机 等 服务 的 资源 配置 .软件 配置 信息 。 

。 事件 信息 : 包括 虚拟 机 等 服务 的 开始 结束 ,以 及 资源 分 配 与 调整 。 

因为 当前 流行 的 虚拟 化 软件 种 类 很 多 ,所 以 在 开发 虚拟 化 资源 池 监 控 程 序 时 需要 一 个 
支持 主流 虚拟 化 软件 的 开发 库 , 它 能 够 与 不 同 的 虚拟 化 程序 交互 ,收集 监控 度量 信息 。 监 控 
系统 会 将 收集 到 的 信息 保存 在 历史 数据 库 中 ,为 容量 规划 ,资源 度量 .安全 等 功能 提供 历史 
数据 。 虽 然 虚 拟 化 向 系统 监控 提出 了 新 的 挑战 ,但 它 也 为 自动 响应 、 处 理 系统 问题 提供 了 很 
多 物理 环境 无 法 提供 的 机 会 。 

2. 资源 监控 的 常用 方法 

系统 资源 监控 主要 通过 度量 收集 到 的 与 系统 状态 、 性 能 相关 的 数据 的 方式 来 实现 ,经 常 
采用 的 方法 如 下 : 

(1) 日 志 分 析 。 通 过 应 用 程序 或 者 系统 命令 采集 性 能 指标 、 事 件 信 息 、 时 间 信 息 等 ,并 
将 其 保存 到 日 志文 件 或 者 历史 数据 库 中 ,用 来 分 析 系 统 或 者 应 用 的 KPI(Key Performance 
Indicator, 关 键 业 绩 指标 )。 例 如 ,用 户 如 果 使 用 Linux 操作 系统 的 计算 实例 ,可 以 运行 
Linux 系统 监控 命令 (如 top iftop, vmstat iostat,mpstat, df, free, pstree 等 ) ,同时 将 这 些 命 
令 的 输出 结果 保存 到 日 志文 件 中 。 很 多 虚拟 化 软件 也 提供 了 系统 监控 命令 。 例 如 ,Xen 虚 
拟 化 软件 时 ,用 户 可 以 运行 xentop、xenmon 等 命令 来 收集 服务 器 的 性 能 指标 信息 。 

(2) 包 嗅 探 (Packet Sniffing)。 主 要 用 于 对 网 络 中 的 数据 进行 拆 包 、 检 查 、 分 析 , 提 取 相 
关 信 息 , 以 分 析 网 络 或 者 相关 应 用 程序 的 性 能 。 

(3) 探 针 采集 (Instrumentation) 。 通 过 在 操作 系统 或 应 用 中 植 入 并 运行 探 针 程 序 来 采 
集 性 能 数据 ,最 常见 的 应 用 实例 是 SNMP 协议 。 大 多 数 的 操作 系统 都 提供 了 SNMP 代理 
运行 系统 性 能 数据 ,并 通过 SNMP 协议 发 送 至 监控 端 。VMware ESX, Xen 虚拟 化 支持 植 
A SNMP 探 针 程序 。 通 过 这 些 探 针 程序 ,一 方面 可 以 收集 物理 服务 器 的 性 能 信息 , 另 一 方 
面 可 以 收集 运行 在 物理 服务 器 上 的 虚拟 机 信息 。 


11.3.4 资源 调度 
从 用 户 的 角度 来 看 , 云 计算 环境 中 的 资源 应 该 是 无 限 的 , 即 每 当 用 户 提出 新 的 计算 和 存 
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储 需求 时 ,“ 云 "都 要 及 时 地 给 予 相 应 的 资源 支持 。 同 时 ,如 果 用 户 的 资源 需求 降低 ,那么 
“ 云 " 就 应 该 及 时 对 资源 进行 回收 和 清理 ,以 满足 新 的 资源 需求 。 

在 云 计算 环境 中 ,因为 应 用 的 需求 波动 ,所 以 云 环 境 应 该 动态 满足 用 户 需 求 ,这 需要 云 
环境 的 资源 调度 策略 为 应 用 提供 资源 预 留 机 制 , 即 以 应 用 为 单位 ,为 其 设 定 最 保守 的 资源 供 
应 量 。 这 是 事前 商定 的 ,虽然 并 不 一 定 能 够 完全 满足 用 户 和 应 用 在 运行 时 的 实际 需求 ,但 是 
它 使 用 户 在 一 定 程度 上 获得 了 资源 供给 和 用 户 体验 保证 。 

虽然 用 户 的 资源 需求 是 动态 可 变 并 且 事 前 不 可 明确 预知 的 ,但 其 中 却 存在 着 某 些 规律 。 
因此 ,对 应 用 的 资源 分 配 进 行 分 析 和 预测 也 是 云 资 源 调 度 策 略 需要 研究 的 重要 方面 。 首 先 
在 运行 时 动态 捕捉 各 个 应 用 在 不 同时 段 的 执行 行为 和 资源 需求 ,然后 对 这 两 方面 信息 进行 
分 析 , 以 发 现 它们 各 自 内 在 及 彼此 之 间 可 能 存在 的 逻辑 关联 ,进而 利用 发 掘 出 的 关联 关系 进 
行 应 用 后 续 行 为 和 资源 需求 的 预测 ,并 依据 测试 结果 为 其 提前 准备 资源 调度 方案 。 

因为 “ 云 " 是 散布 在 因特网 上 的 分 布 式 计算 和 存储 架构 ,所 以 网 络 因素 对 于 云 环境 的 资 
源 调度 非常 重要 。 调 度 过 程 中 考虑 用 户 与 资源 之 间 的 位 置 及 分 配给 同一 应 用 的 资源 之 间 的 
位 置 。 这 里 的 “位 置 ” 并 不 是 指 空间 物理 位 置 , 它 主要 考虑 用 户 和 资源 、 资 源 和 资源 之 间 的 网 
络 情况 ,例如 带宽 等 。 

云 的 负载 均衡 也 是 一 种 重要 的 资源 调度 策略 。 考 察 系统 中 是 否 存 在 负载 均衡 可 以 从 多 
个 方面 进行 ,例如 处 理 器 压力 、 存 储 压力 、 网 络 压力 等 ,而 其 调度 策略 也 可 以 根据 应 用 的 具体 
需求 和 系统 的 实际 运作 情况 进行 调整 。 如 果 系 统 中 同时 存在 着 处 理 器 密集 型 应 用 和 存储 密 
集 型 应 用 ,那么 在 进行 资源 调度 的 时 候 , 用 户 可 以 针对 底层 服务 器 资源 的 配置 情况 做 出 多 种 
选择 。 例 如 ,可 以 将 所 有 处 理 器 /存储 密集 型 应 用 对 应 部 署 到 具有 特别 强大 的 处 理 器 /存储 
能 力 的 服务 器 上 ,还 可 以 将 这 些 应 用 通过 合理 配置 后 部 署 到 处 理 器 和 存储 能 力 均衡 的 服务 
器 上 。 这 样 做 能 够 提高 资源 利用 率 ,同时 保证 用 户 获得 良好 的 使 用 体验 。 

基于 能 耗 的 资源 调度 是 云 计 算 环境 中 必须 考虑 的 问题 。 因 为 云 计算 环境 拥有 数量 巨大 
的 服务 器 资源 ,其 运行 ,冷却 散热 都 会 消耗 大 量 能 源 ,如 果 可 以 根据 系统 的 实时 运行 情况 ， 
在 能 够 满足 应 用 的 资源 需求 的 前 提 下 将 多 个 分 布 在 不 同 服务 器 上 的 应 用 整合 到 一 台 服 务 器 
上 ,进而 将 其 余 服 务 器 关闭 ,就 可 以 起 到 节省 能 源 的 作用 ,这 对 于 降低 云 计 算 环境 的 运营 成 
本 具有 非常 重要 的 意义 。 


11.3.5 业务 管理 和 计 费 度量 


IaaS 服务 可 以 向 用 户 提供 多 种 IT 资源 的 组 合 ,这 些 服务 可 再 细 分 成 多 种 类 型 和 等 级 。 
用 户 可 以 根据 自己 的 需求 订购 不 同类 型 .不 同等 级 的 服务 ,还 可 以 为 级 别 较 高 的 客户 提供 高 
安全 性 的 VPCCVirtual Private Cloud, 虚 拟 私 有 云 ) 服 务 。 对 IaaS 业务 服务 需要 提供 包括 
服务 的 创建 ,发 布 、 审 批 等 功能 。 

云 计 算 中 的 资源 包括 网 络 、 存 储 、 计 算 能 力 及 应 用 服务 ,用 户 所 使 用 的 是 一 个 个 服务 产 
品 的 实例 。 用 户 获 取 laas 服务 需要 经 过 注册 、 申 请 、 审 批 .部 署 等 流程 。 通常 管 理 用 户 服 务 
实例 的 操作 包含 服务 实例 的 申请 审批 ,部署 . 查 询 、 配 置 及 变更 、 迁 移 、 终 止 \ 删 除 等 。 

按照 资源 使 用 付费 是 云 计算 在 商业 模式 上 的 一 个 显著 特征 , 它 改 变 了 传统 的 购买 IT 
物理 设备 、 建 设 或 租用 IDC ,由 固定 人 员 从 事 设备 及 软件 维护 等 复杂 的 工作 模式 。 在 云 计 算 
中 ,用 户 只 要 购买 计算 服务 ,其 IT 需求 即 可 获得 满足 ,包括 IT 基础 设施 .系统 软件 (如 操作 
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系统 .服务 器 软件 .数据库 ,监控 系统 )` 应 用 软件 (如 办 公 软 件 .ERP.CRM) 等 都 可 以 作为 服 
务 从 云 计 算 服务 提 供 商 处 购买 ,降低 了 用 户 资源 投资 和 维护 成 本 ,同时 提高 了 IT 资源 的 利 
用 率 。 

云 服务 的 运营 必然 涉及 用 户 计 费 问题 。 云 计算 服务 的 计 费 方式 可 用 下 面 公式 表示 : 

消费 金额 = 单位 价格 X 消 费 数量 

通常 用 户 购买 云 计 算 服 务 时 会 涉及 多 种 服务 ,包括 计算 、 存 储 、 负 载 均衡 、 监 控 等 ,每 种 
服务 都 有 自己 的 计价 策略 和 度量 方式 ,在 结算 时 需要 先 计算 每 种 服务 的 消费 金额 ,然后 将 单 
个 用 户 所 消费 服务 进行 汇总 得 到 用 户 消 费 的 账单 。 

“单位 价格 "是 由 云 计算 服务 提供 商 的 计价 策略 确定 的 。 例 如 ,EC2 的 计价 策略 是 普通 
Linux 计算 实例 每 小 时 0.031 美元 ,普通 Windows 计算 实例 每 小 时 0.08 美元 。 可 见 , 每 种 
服务 的 计价 策略 也 可 以 再 按照 多 种 维度 进行 细 分 。 同 时 , 云 计 算 服务 提供 商 也 会 根据 市 场 
的 需求 和 成 本 的 变化 调整 计价 策略 。 而 “消费 数量 ” 则 是 云 计算 服务 商 在 提供 服务 时 对 用 户 
资源 使 用 量 的 度量 ,这 种 资源 度量 可 以 与 资源 监控 结合 在 一 起 。 例 如 ,EC2 服务 的 度量 指 
标 是 服务 的 使 用 时 间 , 即 用 户 使 用 某 种 计算 实例 的 小 时 数 ,根据 资源 监控 历史 记录 可 以 方便 
地 统计 出 用 户 使 用 EC2 服务 的 类 型 和 时 间 。 





11.4 Amazon 云 计 算 案例 


Amazon 公司 构建 了 一 个 云 计算 平台 ,并 以 Web 服务 的 方式 将 云 计算 产 品 提供 给 用 
户 ,Amazon Web Services(AWS) 是 这 些 Web 服务 的 总 称 。 通 过 AWS 的 IT 基础 设施 层 服 
务 和 丰富 的 平台 层 服务 。 


11.4.1 概述 


Amazon 公司 的 云 计 算 平台 提供 IaaS 服务 ,可 以 满足 各 种 企业 级 应 用 和 个 人 应 用 。 用 
户 获得 可 靠 的 .可 伸缩 的 、 低 成 本 的 信息 服务 的 同时 ,也 可 以 从 复杂 的 数据 中 心 管理 和 维 
中 解脱 出 来 。Amazon 公司 的 云 计算 真正 实现 了 按 使 用 付费 的 收费 模式 ,AWS 用 户 只 需 为 
自己 实际 所 使 用 的 资源 付费 ,从 而 降低 了 运营 成 本 。AWS 目前 提供 的 产品 如 表 11-1 所 示 。 


表 11-1 Amazon AWS 产品 分 类 列表 











出 




















产品 分 类 产品 名 称 
Amazon Elastic Compute Cloud (E2) 
计算 Amazon Elastic MapReduce 
Auto Scaling 
内 容 交付 Amazon CloudFront 
数据 库 Amazon SimpleDB 





Amazon Relational Database Service (RDS) 





电子 商务 Amazon Fullfillment Web Service (FWS) 





Amazon Simple Queue Service (SQS) 





消息 通信 


Amazon Simple Notification Service (SNS) 





监控 Amazon CloudWatch 
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续 表 
产品 分 类 产品 名 称 
apis Amazon Virtual Private (VPC) 
Al Elastic Load Balancing 
支付 Amazon Flexible Payment Service (FPS) 
Amazon DevPay 
Amazon Simple Storage Service (S3) 
存储 Amazon Elastic Block Storage (EBS) 
Amazon Import/Export 
支持 AWS Premium Support 
Web 流量 Alexa Web Mularoni Service 
Alexa Top Sites 
人 力 服务 Amazon Mechanical Turk 








AWS 基础 设施 层 服务 包括 计算 服务 、 消 息 通 信服 务 、 网 络 通信 服务 和 存储 服务 , 以 
IaaS 服务 为 主 。 图 11-2 显示 了 在 一 个 应 用 中 经 常 使 用 的 各 个 AWS 服务 之 间 的 配合 关系 。 
用 户 可 以 将 应 用 部 署 在 EC2 上 ,通过 控制 器 启动 ,停止 和 监控 应 用 。 计 费 服务 负责 对 应 用 
的 计 费 。 应 用 的 数据 存储 在 SimpleDB 或 S3。 应 用 系统 之 间 借 助 SQS 在 不 同 的 控制 器 之 
间 进 行 异步 可 靠 的 消息 通信 ,从 而 减少 各 个 控制 器 之 间 的 依赖 ,使 系统 更 为 稳定 ,任何 一 个 
控制 器 的 失效 或 者 阻塞 都 不 会 影响 其 他 模块 的 运行 。 


[服务 供应 商 
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图 11-2 AWS 结构 图 





AWS 的 IaaS 服务 平台 不 仅 能 够 满足 很 多 方面 的 IT 资源 需求 ,还 提供 了 很 多 上 层 业务 
服务 ,包括 电子 商务 .支付 和 物流 等 。 下 面 介绍 S3、Simple DB、RDS、SQS 和 EC2 等 几 个 底 
层 关 键 产品 。 


11.4.2 Amazon S3 


Amazon Simple Storage Service(S3) 是 云 计 算 平台 提供 的 可 靠 的 网 络 存储 服务 ,通过 
S3 ,个 人 用 户 可 以 将 自己 的 数据 放 到 存储 云 上 ,通过 因特网 访问 和 管理 。 同 时 ,Amazon 公 
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司 的 其 他 服务 也 可 以 直接 访问 S3。S3 由 对 象 和 存储 桶 (Bucket) 两 部 分 组 成 。 对 象 是 最 基 
本 的 存储 实体 ,包括 对 象 数据 本 身 、 键 值 \ 描 述 对 象 的 元 数据 及 访问 控制 策略 等 信息 。 存 储 
桶 则 是 存放 对 象 的 容器 ,每 个 桶 中 可 以 存储 无 限 数量 的 对 象 。 目 前 存储 桶 不 支持 嵌 套 。 

作为 云 平台 上 的 存储 服务 ,S3 具有 与 本 地 存储 不 同 的 特点 。S3 采用 的 按 需 付费 方式 
节省 了 用 户 使 用 数据 服务 的 成 本 。S3 既 可 以 单独 使 用 ,也 可 以 同 Amazom 公司 的 其 他 服务 
结合 使 用 。 云 平台 上 的 应 用 程序 可 以 通过 REST 或 者 SOAP 接口 访问 S3 的 数据 。 以 
REST 接口 为 例 ,S3 的 所 有 资源 都 有 唯一 的 URI 标识 符 ,应 用 通过 向 指定 的 URI 发 HTTP 
请 求 就 可 以 完成 数据 的 上 传 、 下 载 、 更 新 或 者 删除 等 操作 。 但 用 户 需 要 了 解 的 是 ,S3 作为 一 
个 分 布 式 的 数据 存储 服务 ,目前 的 版 本 存在 着 一 些 不 足 , 如 数据 操作 存在 网 络 延 迟 ,以 及 不 
支持 文件 的 重 命名 、 部 分 更 新 等 。 作 为 Web 数据 存储 服务 ,S3 适合 存储 较 大 的 ,一 次 写 入 、 
多 次 读 取 的 数据 对 象 ,例如 声音 、 视 频 、 图 像 等 媒体 文件 。 

安全 性 和 可 靠 性 是 云 计算 数据 存储 普遍 关心 的 两 个 问题 。S3 采用 账户 认证 ,访问 控制 
列表 及 查询 字符 串 认证 三 种 机 制 来 保障 数据 的 安全 性 。 当 用 户 创建 AWS 账户 的 时 候 , 系 
统 自动 分 配 一 对 存 取 键 ID 和 存 取 密 钥 ,利用 存 取 密 钥 对 请 求 签名 ,然后 在 服务 器 端 进行 验 
证 ,从 而 完成 认证 。 访 问 控制 策略 是 S3 采用 的 另外 一 种 安全 机 制 ,用 户 利用 访问 控制 列表 
设 定数 据 ( 对 象 和 存储 桶 ) 的 访问 权限 ,比如 数据 是 公开 的 还 是 私有 的 等 。 即 使 在 同一 公司 
内 部 ,相同 的 数据 对 不 同 的 角色 也 有 不 同 的 视图 ,S3 支持 利用 访问 规则 来 约束 数据 的 访问 
权限 。 通 过 对 公司 员工 的 角色 进行 权限 划分 ,能 够 方便 地 设置 数据 的 访问 权限 。 如 系统 管 
理 员 能 够 看 到 整个 公司 的 数据 信息 ,部 门 经 理 能 看 到 与 部 门 相关 的 数据 ,普通 员工 只 能 看 到 
自己 的 信息 。 查 询 字符 串 认 证 方式 广泛 适用 于 以 HTTP 请 求 或 者 浏览 器 的 方式 对 数据 进 
行 访问 。 为 了 保证 数据 服务 的 可 靠 性 ,S3 采用 了 元 余 备份 的 存储 机 制 , 存 放 在 S3 中 的 所 有 
数据 都 会 在 其 他 位 置 备份 ,保证 部 分 数据 失效 不 会 导致 应 用 失效 。 在 后 台 ,S3 保证 不 同 备 
份 之 间 的 一 致 性 ,将 更 新 的 数据 同步 到 该 数据 的 所 有 备份 上 。 


11.4.3 Amazon Simple DB 


Amazon Simple DB 是 一 种 高 可 用 的 、 可 伸缩 的 非 关系 型 数据 存储 服务 。 与 传统 的 关系 
数据 库 不 同 ,Simple DB 不 需要 预先 设计 和 定义 任何 数据 库 Schema, 只 需 定 义 属 性 和 项 , 即 
可 用 简单 的 服务 接口 对 数据 进行 创建 ,查询 、 更 新 或 删除 操作 。 

Simple DB 的 存储 模型 分 为 三 层 : H (Domain) 、 项 (Item) 和 属性 (Attribute) 。 域 是 数 
据 的 容器 ,每 个 域 可 以 包含 多 个 项 。 在 Simple DB 中 ,用 户 的 数据 是 按照 域 进行 逻辑 划分 
的 ,所 以 数据 查询 操作 只 能 在 同一 个 域内 进行 ,不 支持 跨 域 的 查询 操作 。 项 是 由 若干 属性 组 
成 的 数据 集合 , 它 的 名 字 在 域 中 是 全 局 唯一 的 。 项 与 关系 数据 库 中 表 的 一 行 类 似 , 用 户 可 以 
对 项 进行 创建 查询 、 修 改 和 删除 操作 。 但 又 与 表 的 一 行 有 所 差异 ,项 中 的 数据 不 受 固定 
Schema 的 约束 ,项 中 的 属性 可 以 包含 多 个 值 。 属 性 是 由 一 个 或 者 多 个 文本 值 所 组 成 的 数据 
集合 ,在 项 内 具有 唯一 的 标识 。 在 Simple DB 中 ,属性 与 关系 数据 库 中 的 列 类 似 , 不 同 的 是 
每 个 属性 可 以 同时 拥有 多 个 字符 串 数 值 , 而 关系 数据 库 的 列 不 能 拥有 多 个 值 。 

Simple DB 是 一 种 简单 易 用 的 、 可 靠 的 结构 化 数据 管理 服务 , 它 能 满足 应 用 不 断 增长 的 
需求 ,用 户 不 需要 购买 .管理 和 维护 自己 的 存储 系统 ,是 一 种 经 济 有 效 的 数据 库 服 务 。 
Simple DB 提供 两 种 服务 访问 方式 : REST 接口 和 SOAP 接口 。 这 两 种 方式 都 支持 通过 
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HTTP 协议 发 出 的 POST 或 者 GET 请 求 访 问 Simple DB 中 的 数据 。Simple DB 使 用 简单 ， 
例如 数据 索引 是 由 系统 自动 创建 并 维护 的 ,不 需要 程序 员 定义 。 然 而 ,Simple DB 毕竟 是 一 
种 轻 量 级 的 数据 库 ,与 技术 成 熟 、 功 能 强大 的 关系 数据 库 相 比 有 些 不 足 。 比 如 ,由 于 数据 操 
作 是 经 过 因特网 进行 的 ,不 可 避免 地 有 较 大 延迟 ,因而 Simple DB 不 能 保证 所 有 的 更 新 都 按 
照 用 户 提 交 的 顺序 执行 ,只 能 保证 每 个 更 新 最 终 成 功 ,因此 应 用 通过 Simple DB 获得 的 数据 
有 可 能 不 是 最 新 的 。 此 外 ,Simple DB 的 存储 模型 是 以 域 .项 、 属 性 为 层次 的 树 状 存储 结构 ， 
与 关系 数据 库 的 表 的 二 维 平面 结构 不 同 ,因此 在 一 些 情况 下 并 不 能 将 关系 数据 库 中 的 应 用 
迁移 到 Simple DB EX. 





11.4.4 Amazon RDS 


尽管 Simple DB 提供 了 一 种 简单 .高效 的 数据 存储 服务 ,但 是 当前 很 多 已 有 的 应 用 多 数 
还 是 采用 关系 型 数据 库 进行 数据 存储 ,这 就 增加 了 将 这 些 应 用 系统 迁移 到 Amazon AWS 平 
台 的 成 本 和 技术 风险 。 因 此 ,Amazon 又 推出 了 Relational Database Service( RDS) 来 满足 
用 户 对 关系 型 数据 库 服务 的 需求 。 

RDS 是 一 个 关系 型 数据 库 服 务 ,通过 RDS 用 户 可 以 非常 容易 地 建立 ,操作 和 伸缩 云 中 
的 数据 库 。RDS 为 用 户 提供 了 一 套 完整 的 MySQL 数据 库 服务 ,这 就 使 得 那些 目前 正在 使 
用 MySQL 数据 库 的 应 用 可 以 无 颖 地 与 RDS 进行 集成 。 

毫 无 疑问 ,RDS 弥补 了 Amazon 在 关系 型 数据 库 服 务 领域 的 一 个 空白 。 然 而 ,这 并 不 
意味 着 RDS 出 现 之 前 用 户 就 没有 办 法 在 Amazon EC2 上 使 用 关系 型 数据 库 , 也 并 不 意味 着 
RDS 出 现 之 后 就 能 满足 所 有 应 用 对 关系 型 数据 库 的 需求 。 

首先 ,在 RDS 出 现 之 前 ,用 户 可 以 选择 将 数据 库 产品 打包 在 AMI 镜像 中 并 部 署 在 EC2 
上 运行 ,然后 在 应 用 中 直接 对 数据 库 进行 访问 。 

另外 ,根据 最 近 5 年 Gartner 的 数据 统计 ,IBM Oracle 和 Microsoft 的 数据 库 产品 几乎 
占 了 市 场 占 有 率 的 80% VAL. ii RDS 目前 只 能 提供 对 MySQL 的 完整 支持 。 因 此 ,如 果 
RDS 要 获得 巨大 成 功 , 未 来 的 版 本 必须 考虑 为 更 多 的 客户 提供 对 主流 数据 库 产品 的 完整 支 
持 , 比 如 Oracle .DB2。 





11.4.5 Amazon SQS 


Amazon SQS(Simple Queue Service) 是 一 种 用 于 分 布 式 应 用 的 组 件 之 间 数 据 传 递 的 消 
息 队列 服务 ,这 些 组 件 可 能 分 布 在 不 同 的 计算 机 上 ,甚至 是 不 同 的 网 络 中 。 利 用 SQS 能 够 
将 分 布 式 应 用 的 各 个 组 件 以 松 耦 合 的 方式 结合 起 来 ,从 而 创建 可 靠 的 大 规模 的 分 布 式 系统 。 
松 耦 合 的 组 件 之 间 相 对 独立 性 强 , 系 统 中 任何 一 个 组 件 的 失效 都 不 会 影响 整个 系统 的 运行 。 

消息 和 队列 是 SQS 实现 的 核心 。 消 息 是 可 以 存储 到 SQS 队列 中 的 文本 数据 ,可 以 由 
应 用 通过 SQS 的 公共 访问 接口 执行 添加 、 读 取 、 删 除 操作 。 队 列 是 消息 的 容器 ,提供 了 消息 
传递 及 访问 控制 的 配置 选项 。SQS 是 一 种 支持 并 发 访问 的 消息 队列 服务 , 它 支持 多 个 组 件 
并 发 的 操作 队列 ,如 向 同一 个 队列 发 送 或 者 读 取消 息 。 消 息 一 旦 被 某 个 组 件 处 理 , 则 该 消息 
将 被 锁定 ,并 且 被 隐藏 ,其 他 组 件 不 能 访问 和 操作 此 消息 ,此 时 队列 中 的 其 他 消息 仍然 可 以 
被 各 个 组 件 访问 。 
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SQS 采用 分 布 式 构架 实现 ,每 一 条 消息 都 可 能 保存 在 不 同 的 机 器 中 ,甚至 保存 在 不 同 
的 数据 中 心里 。 这 种 分 布 式 存储 策略 保证 了 系统 的 可 靠 性 ,同时 也 体现 出 其 与 中 央 管 理 队 
列 的 差异 ,这 些 差异 需要 分 布 式 系统 设计 者 和 SQS 使 用 者 充分 理解 。 首 先 ,SQS 并 不 严格 
保证 消息 的 顺序 , 先 送 入 队列 的 消息 也 可 能 晚 些 时 候 才 会 可 见 ; 其 次 ,分 布 式 队列 中 有 些 已 
经 被 处 理 的 消息 在 一 定时 间 内 还 存在 于 其 他 队列 中 ,因此 同一 个 消息 可 能 会 被 处 理 多 次 ; 
再 次 ,获取 消息 时 不 能 确保 得 到 所 有 的 消息 ,可 能 只 得 到 部 分 服务 器 中 队列 里 的 消息 ; 最 
后 ,消息 的 传递 可 能 有 延迟 ,不 能 期 望 发 出 的 消息 马上 被 其 他 组 件 看 到 。 

图 11-3 为 一 条 消息 的 生命 周期 管理 示例 。 首 先 ,由 组 件 1 创建 一 条 新 的 消息 A, 通 过 
HTTP 协议 调用 SQS 服务 将 消息 A 存储 到 消息 队列 中 。 接 着 ,组 件 2 准备 处 理 消息 , 它 从 
队列 中 读 取 消息 A, 并 将 其 锁定 。 在 组 件 2 处 理 的 过 程 中 ,消息 A 仍然 存在 于 消息 队列 中 ， 
只 是 对 其 他 组 件 不 可 见 。 最 后 , 当 组 件 2 成 功 处 理 完 消息 A 后 ,SQS 将 消息 A 从 队列 中 删 
除 ,避免 这 个 消息 被 其 他 组 件 重 复 处 理 。 但 是 ,如 果 组 件 2 在 处 理 过 程 中 失效 ,导致 处 理 超 
时 ,SQS 会 把 消息 A 的 状态 重新 设 为 可 见 , 从 而 可 以 被 其 他 组 件 继续 处 理 。 
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图 11-3 Amazon SQS 服务 消息 管理 示例 


11.4.6 Amazon EC2 


Amazon EC2(Elastic Compute Cloud) 是 一 种 云 基础 设施 服务 。 该 服务 基于 服务 器 虚 
拟 化 技术 ,致力 于 为 用 户 提供 大 规模 的 、 可 靠 的 .可 伸缩 的 计算 运行 环境 。 通 过 EC2 所 提供 
的 服务 ,用 户 不 仅 可 以 非常 方便 地 申请 所 需要 的 计算 资源 .而且 可 以 灵活 地 定制 所 拥有 的 资 
源 , 如 用 户 拥有 虚拟 机 的 所 有 权限 .可 以 根据 需要 定制 操作 系统 ,安装 所 需 的 软件 。 

EC2 一 个 诱 人 的 特点 就 是 用 户 可 以 根据 业务 的 需求 灵活 地 申请 或 者 终止 资源 使 用 , 且 
只 需 为 实际 使 用 到 的 资源 数量 付费 。 

EC2 由 AMI(Amazon Machine Image) ,EC2 虚拟 机 实例 和 AMI 运行 环境 组 成 。AMI 
是 一 个 用 户 可 定制 的 虚拟 机 镜像 ,是 包含 了 用 户 的 所 有 软件 和 配置 的 虚拟 环境 ,是 EC2 部 
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署 的 基本 单位 。 多 个 AMI 可 以 组 合 形成 一 个 解决 方案 ,例如 Web 服务 器 、 应 用 服务 器 和 数 
据 服务 器 可 联合 形成 一 个 三 层 架 构 的 Web 应 用 。AMI 被 部 署 到 EC2 的 运行 环境 后 就 产生 
一 个 EC2 虚拟 机 实例 ,由 同一 个 AM 创建 的 所 有 实例 都 拥有 相同 的 配置 。 需 要 注意 的 是 ， 
EC2 虚拟 机 实例 内 部 并 不 保存 系统 的 状态 信息 ,存储 在 实例 中 的 信息 随 着 它 的 终止 而 丢 
失 。 用 户 需要 借助 于 Amazon 的 其 他 服务 持久 化 用 户 数据 ,如 前 面 提 到 的 Simple DB 或 者 
S3。AMI 的 运行 环境 是 一 个 大 规模 的 虚拟 机 运行 环境 ,拥有 庞大 规模 的 物理 机 资源 池 和 虚 
拟 机 运行 平台 ,所 有 利用 AMI 镜像 启动 的 EC2 虚拟 机 实例 都 运行 在 该 环境 中 。EC2 运行 
环境 为 用 户 提 供 基本 的 访问 控制 服务 、 存 储 服务 、 网 络 及 防火 墙 服务 等 。 

通常 EC2 的 用 户 需 要 首先 将 自己 的 操作 系统 、 中 间 件 及 应 用 程序 打包 在 AMI 虚拟 机 
镜像 文件 中 ,然后 将 自己 的 AMI 镜像 上 传 到 S3 服务 上 ,最 后 通过 EC2 的 服务 接口 启动 
EC2 虚拟 机 实例 。 

与 传统 的 服务 运行 平台 相 比 ,EC2 具有 以 下 优势 : 

(1) 可 伸缩 性 。 利 用 EC2 提供 的 网 络 服务 接口 ,应 用 可 以 根据 需求 动态 调整 计算 资 
源 , 支 持 同 时 启动 多 达 上 千 个 虚拟 机 实例 。 

(2) 节省 成 本 。 用 户 不 需要 预先 为 应 用 峰值 所 需 的 资源 进行 投资 ,也 不 需要 雇用 专门 
的 技术 人 员 进 行 管理 和 维护 ,可 以 利用 EC2 轻松 地 构建 任意 规模 的 应 用 运行 环境 。 在 服务 
的 运行 过 程 中 ,用 户 可 以 灵活 地 开启 、 停 止 .增加 减少 虚拟 机 实例 ,并 且 只 需 为 实际 使 用 的 
资源 付费 。 

(3) 使 用 灵活 。 用 户 可 以 根据 自己 的 需要 灵活 定制 服务 ,Amazon 公司 提供 了 多 种 不 同 
的 服务 器 配置 ,以 及 丰富 的 操作 系统 和 软件 组 合 给 用 户 选择 。 用 户 可 以 利用 这 些 组 件 轻松 
地 搭建 企业 级 的 应 用 平台 。 

(4) 安全 可 靠 。EC2 构建 在 Amazon 公司 的 全 球 基 础 设施 之 上 ,EC2 的 运行 实例 可 以 
分 布 到 全 球 不 同 的 数据 中 心 ,单个 节点 失效 或 者 局 部 区 域 的 网 络 故障 不 会 影响 业务 的 运行 。 

(5) 容错 。Amazon 公司 通过 提供 可 靠 的 EBS(Elastic Block Store) 服 务 , 在 不 同 区 域 
持久 地 存储 和 备份 EC2 实例 ,在 出 现 故 障 时 可 以 快速 地 恢复 到 之 前 正确 的 状态 ,对 应 用 和 
数据 的 安全 提供 了 有 效 的 保障 。 





11.5 本 章 小 结 


本 章 介 绍 了 云 计算 环境 中 的 IaaS,IaaS 是 指 将 IT 基础 设施 能 力 ( 如 服务 器 、 存 储 、 计 算 
能 力 等 ) 通 过 网 络 提供 给 用 户 使 用 ,并 根据 用 户 对 资源 的 实际 使 用 量 或 占用 量 进 行 计 费 的 一 
种 服务 。 

IaaS 通过 采用 资源 池 构 建 、 资 源 调度 、 服 务 封装 等 手段 ,可 以 将 资源 池 化 ,实现 IT 资产 
向 IT 资源 按 需 服务 的 迅速 转变 。 基 础 设施 即 服 务 的 总 体 技术 架构 主要 分 为 资源 层 、 虚 拟 
化 层 、 管 理 层 和 服务 层 4 层 架 构 。 

(1) 资源 层 。 位 于 架构 最 底层 的 是 资源 层 ,主要 包含 数据 中 心 所 有 的 物理 设备 ,如 硬件 
服务 器 、 网 络 设备 存储 设备 及 其 他 硬件 设备 。 在 基础 架构 云 平台 中 .位 于 资源 层 中 的 资源 
不 是 独立 的 物理 设备 个 体 , 而 是 组 成 一 个 集中 的 资源 池 , 因 此 资源 层 中 的 所 有 资源 将 以 池 化 
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(2) 虚拟 化 层 。 位 于 资源 层 之 上 的 是 虚拟 化 层 , 虚 拟 化 层 的 作用 是 按照 用 户 或 者 业务 
的 需求 ,从 资源 池 中 选择 资源 并 打包 ,从 而 形成 虚拟 机 应 用 于 不 同 规模 的 计算 。 

(3) 管理 层 。 虚 拟 化 层 之 上 为 管理 层 ,管理 层 主 要 对 下 面 的 资源 层 进行 统一 的 运 维和 
管理 ,包括 收集 资源 的 信息 ,了解 每 种 资源 的 运行 状态 和 性 能 情况 ,决定 如 何 借助 虚拟 化 技 





AR id FE .打包 不 同 的 资源 ,以 及 如 何 保证 打包 后 的 计算 资源 一 一 虚拟 机 的 高 可 用 性 或 者 如 何 
实现 负载 均衡 等 。 

CA) 服务 层 。 服 务 层 位 于 整体 架构 的 最 上 层 , 主 要 向 用 户 提供 使 用 管理 层 、 虚 拟 化 层 和 
资源 层 的 接口 。 


Amazon 公司 的 云 计 算 平台 提供 laas 服务 ,可 以 满足 各 种 企业 级 应 用 和 个 人 应 用 。 用 
户 获 得 可 靠 的 .可 伸缩 的 、 低 成 本 的 信息 服务 的 同时 ,也 可 以 从 复杂 的 数据 中 心 管理 和 维护 
中 解脱 出 来 。 
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平台 即 服务 


平台 即 服 务 (Platform as a Service. PaaS) 是 把 服务 器 作为 一 种 服务 提供 的 商业 模式 ， 
能 够 为 应 用 程序 的 执行 弹性 地 提供 所 需 的 资源 ,并 根据 用 户 程序 对 实际 资源 的 使 用 收取 费 
用 。 本 章 介绍 PaaS MIA PaaS 架构 和 Google 微软 公司 应 用 案例 。 


12.1 PaaS 概述 


PaaS 通过 因特网 为 用 户 提供 的 平台 是 一 种 应 用 开发 与 执行 环境 ,根据 一 定 规律 开发 出 
来 的 应 用 程序 可 以 运行 在 这 个 环境 之 内 ,并 且 其 生命 周期 能 够 被 该 环境 所 控制 ,而 并 非 只 是 
简单 地 调用 平台 提供 的 接口 。 从 应 用 开发 者 的 角度 看 ,PaaS 是 因特网 资源 的 聚合 和 共享 ， 
开发 者 可 以 灵活 、 充 分 地 利用 服务 提供 商 提供 的 应 用 能 力 便捷 地 开发 因特网 应 用 ; 从 服务 
提供 商 的 角度 看 ,PaaS 通过 提供 易 用 的 开发 平台 和 便利 的 运行 平台 ,吸引 更 多 的 应 用 程序 
和 用 户 , 从 而 获得 更 大 的 市 场 份额 并 扩大 收益 。 


12.1.1 Paas 的 由 来 


业界 最 早 的 PaaS 服务 是 由 Salesforce 公司 在 2007 年 推出 的 Force. corn, 它 为 用 户 提 
供 了 关系 数据 库 ,用户 界面 选项 .企业 逻辑 及 一 个 专用 的 集成 开发 环境 ,应 用 程序 开发 者 可 
以 在 该 平台 提供 的 运行 环境 中 对 他 们 开发 出 来 的 应 用 软件 进行 部 署 测试 ,然后 将 应 用 提交 
给 Salesforce 供用 户 使 用 。 作 为 SaaS 服务 提供 商 ,Salesforce 公司 推出 PaaS 的 目的 是 使 商 
业 SaaS 应 用 的 开发 更 加 便捷 ,进而 使 SaaS 服务 用 户 能 够 有 更 多 的 软件 应 用 可 以 选择 。 

当前 时 代 计 算 的 先驱 的 Google 公司 ,使 用 便宜 的 计算 机 和 强 有 力 的 中 间 件 ,以 及 自己 
的 技术 装备 建成 了 世界 上 最 强大 的 数据 中 心 和 超 高 性 能 的 并 行 计算 群 。2008 年 4 月 发 表 
的 PaaS 服务 Google App Engine, 为 了 提供 更 多 的 服务 ,方便 用 户 使 用 .去掉 了 烦琐 的 
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作业 。 

微软 公司 在 2008 年 冬天 推出 Windows Azure 平台 ,并 陆续 发 布 了 用 于 提供 数据 库 服 
务 、 总 线 服务 、 身 份 认证 服务 等 相关 组 件 ,构建 完整 的 微软 公司 PaaS 服务 。 

PaaS 服务 更 多 的 从 用 户 角度 出 发 ,将 更 多 的 应 用 移植 到 PaaS 平台 上 进行 开发 管理 , 充 
分 体现 了 因特网 低 成 本 、 高 效率 、 规 模 化 的 应 用 特性 。PaaS 对 于 SaaS 的 运营 商 来 说 ,可 以 
帮助 他 们 进行 产品 多 元 化 和 产品 定制 化 。 


12.1.2 PaaS 的 概念 


平台 即 服务 是 软件 即 服务 的 变种 ,这 种 形式 的 云 计 算 将 开发 环境 作为 服务 来 提供 。 可 
以 创建 自己 的 应 用 软件 在 供应 商 的 基础 架构 上 运行 ,然后 通过 网 络 从 供应 商 的 服务 器 上 传 
递 给 用 户 , 能 给 客户 带 来 更 高 性 能 、 更 个 性 化 的 服务 。 

PaaS 实际 上 是 指 将 软件 研发 的 平台 ( 计 世 资讯 定义 为 业务 基础 平台 ) 作 为 一 种 服务 , 以 
SaaS 的 模式 提交 给 用 户 。 因 此 ,PaaS 也 是 Saas 模式 的 一 种 应 用 。 但 是 ,PaaS 的 出 现 可 以 
加 快 SaaS 的 发 展 ,尤其 是 加 快 SaaS 应 用 的 开发 速度 。PaaS 之 所 以 能 够 推进 SaaS 的 发 展 ， 
主要 在 于 它 能 够 提供 企业 进行 定制 化 研发 的 中 间 件 平台 ,同时 涵盖 数据 库 和 应 用 服务 器 等 。 
PaaS 可 以 提高 在 Web 平台 上 利用 的 资源 数量 。 例 如 ,可 通过 远程 Web 服务 使 用 数据 即 服 
务 (Data-as-a-Service,DaaS) ,还 可 以 使 用 可 视 化 的 API。 用 户 或 者 厂商 基于 PaaS 平台 可 以 
快速 开发 自己 所 需要 的 应 用 和 产品 。 同 时 ,PaaS 平台 开发 的 应 用 能 更 好 地 搭建 基于 SOA 
架构 的 企业 应 用 。 此 外 ,PaaS 对 于 SaaS 运营 商 来 说 ,可 以 帮助 他 们 进行 产品 多 元 化 和 产品 
定制 化 。 


12.1.3 PaaS 模式 的 开发 


PaaS 利用 一 个 完整 的 计算 机 平台 ,包括 应 用 设计 、 应 用 开发 .应 用 测试 和 应 用 托管 ,这 
些 都 作为 一 种 服务 提供 给 客户 ,而 不 是 用 大 量 的 预 置 型 (On-Premise) 基 础 设施 支持 开发 。 
因此 ,不 需要 购买 硬件 和 软件 ,只 需要 简单 地 订购 一 个 PaaS 平台 ,通常 这 只 需要 一 分 钟 的 
时 间 。 利 用 PaaS 能 够 创建 ,测试 和 部 署 一 些 非常 有 用 的 应 用 和 服务 ,这 与 在 基于 数据 中 心 
的 平台 上 进行 软件 开发 相 比 ,费用 要 低 得 多 。 这 就 是 PaaS 的 价值 所 在 。 

虽然 技术 是 不 断 变化 的 ,可 是 架构 却 是 不 变 的 ,如 图 12-1 所 示 。PaaS 不 是 一 个 新 的 
“拯救 世界 ”的 概念 ,而 只 是 目前 思维 方式 的 延伸 及 对 新 兴 技 术 的 一 种 反应 ,比如 核心 业务 流 
程 外 包 和 基于 Web 的 计算 。 对 于 PaaS 这 个 所 谓 的 “范式 转变 ”, 需要 知道 的 是 其 实 没有 任 
何 转变 。 我 们 多 年 以 来 一 直 在 外 包 主 要 的 业务 流程 ,而 这 一 直 都 很 困难 。 但 是 , 随 着 越 来 越 
多 的 PaaS 厂商 在 这 一 新 兴 领 域 共同 努力 ,应 该 完全 相信 在 未 来 几 年 里 会 有 一 些 相当 令 人 
吃惊 的 产品 问世 。 这 对 于 那些 搭建 SOA 和 WOA 的 人 来 说 很 有 帮助 ,因为 他 们 可 以 选择 在 
哪里 托管 这 些 进程 或 服务 ,在 防火 墙 内 部 还 是 外 部 。 事 实 上 ,很 多 人 都 会 PaaS 方法 ,因为 
这 种 方法 的 成 本 及 部 署 速度 太 有 吸引 力 了 ,使 人 难以 拒绝 。 

PaaS 所 提倡 的 价值 不 只 是 简单 的 成 本 和 速度 ,而 是 可 以 在 该 Web 平台 上 利用 的 资源 
数量 。 例 如 ,可 通过 远程 Web 服务 使 用 数据 即 服务 ,还 可 以 使 用 可 视 化 的 API, 范 围 从 绘图 
到 商业 应 用 。 甚 至 其 他 PaaS 厂商 还 允许 混合 并 匹配 适合 自己 应 用 的 平台 。 
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图 12-1 PaaS 架构 


PaaS 与 广为人知 的 SaaS 具有 某 种 程度 的 相似 。Saas 提供 人 们 可 以 立即 订购 和 使 用 
的 、 得 到 完全 支持 的 应 用 ; 而 在 使 用 Paas 时 .开发 人 员 使 用 由 服务 提供 商 提供 的 免费 编程 
工具 来 开发 应 用 并 把 它们 部 署 到 云 中 。 这 种 基础 设施 是 由 PaaS 提供 商 或 其 合作 伙伴 提供 
的 ,同时 后 两 者 根据 CPU 使 用 情况 或 网 页 观看 数 等 一 些 使 用 指标 来 收费 。 

这 种 开发 模型 与 传统 方式 完全 不 同 。 在 传统 方式 中 ,程序 员 把 商业 或 开源 工具 安装 在 
本 地 系统 上 ,编写 代码 ,然后 把 开发 的 应 用 程序 部 署 到 他 们 自己 的 基础 设施 上 并 管理 它们 。 
而 PaaS 模型 正 迅速 赢得 支持 者 。 

Garrett Davis 过 去 30 多 年 来 为 大 型 保险 公司 编写 软件 。 他 求助 于 Google App Engine 
在 PaaS 云 中 完成 他 的 工作 。 他 说 :“ 在 很 多 年 编写 了 数 不 清 行 数 的 Basic 程序 ,然后 是 
Cobol 程序 ,然后 是 J2EE 程序 后 ,App Engie 的 工具 ,尤其 是 典雅 的 Python, 显 示 出 巨大 的 
吸引 力 。”Davis W: “Python 语言 不 强迫 我 用 圆 括 号 和 分 号 搞 清 我 的 代码 。” 

1. PaaS 开发 速度 更 快 

使 用 PaaS, 开 发 人 员 可 以 极 具 生 产 力 , 这 部 分 是 由 于 他 们 不 必 为 定义 可 伸缩 性 要 求 去 
操心 ,也 不 必用 XML 编写 部 署 说 明 , 这 些 工作 全 部 由 PaaS 提供 商 处 理 。Davis 迅速 开发 出 
了 工资 单 和 财产 管理 应 用 程序 。 他 说 .在 使 用 App Engine 时 ,他 只 需要 一 个 月 的 时 间 就 可 
以 完成 使 用 J2EE、 耗 费 50 个 人 员 月 编写 的 工作 人 员 薪 酬 应 用 的 移植 工作 。 

PaaS 上 市 时 间 优 势 也 给 Author Solutions 公司 的 Michael Iovino 留 下 了 深刻 印象 。 他 
的 8 名 程序 员 利 用 Salesforce. com 公司 的 Force. com PaaS 开发 环境 开发 了 公司 的 
iUniverse 创作 应 用 。 开 发 小 组 只 用 了 三 个 月 时 间 就 拿 出 了 一 个 具有 全 套 业务 逻辑 和 帮助 
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图 书 作 者 完成 各 种 工作 (从 文字 版 面 到 营销 和 销售 ) 的 多 选 件 完整 程序 。Iovino 说 :“ 我 对 
这 种 开发 速度 非常 满意 。” 

弗吉尼亚 Fredricksburg 市 ECMInstitute 公司 经 理 Ray Chance 指出 PaaS 的 另 一 个 巨大 的 
诱 人 之 处 一 一 低 费 用 。 他 的 非 赢利 组 织 是 一 个 传播 企业 内 容 管 理 信息 的 分 发 中 心 。 这 个 中 心 
使 用 利用 Google App Engine 开发 定制 的 RSS 服务 将 信息 传播 给 该 机 构 的 1000 家 成 员 。 

Chance 说 ,只 要 你 每 月 网 页 观看 量 不 到 500 万 并 且 需 要 不 到 500MB 的 在 线 存储 空间 ， 
Google 就 是 免费 的 。Chance 说 ,更 重要 的 是 ,他 用 App Engine 开发 的 RSS 应 用 部 署 在 
Google 的 数据 中 心 ,并 在 这 个 中 心得 到 维护 。Davis 把 这 个 数据 中 心 形 容 为 “地球 上 最 复杂 
的 芯片 和 存储 的 集合 ”。 

2. PaaS 开发 也 有 缺点 

开发 PaaS 软件 也 存在 着 缺点 。 例 如 ,Chance 说 ,App Engine 的 Python 由 于 其 内 存 管 
理 的 局 限 ,有 时 会 成 为 一 场 “ 斗 争 ”。 而 缓存 问题 会 限制 RSS 从 他 的 站 点 提供 RSS 馈送 的 
速度 。Davis 也 说 ,机 构 可 能 发 现 将 J2EE 应 用 移植 到 Google 的 受到 限制 的 环境 存在 困难 。 

Iovino 说 ,Force. com 环境 相当 强健 。 而 且 Salesforce. com 的 AppExchange 第 三 方 软 
件 市 场 提供 更 多 的 开发 工具 。 他 补充 说 ,但 是 ,如 果 PaaS 模型 要 想 在 长 期 取得 成 功 的 话 ， 
Force. com 将 需要 更 好 的 代码 管理 能 力 。 

Iovino 还 指出 ,由 于 代码 在 Salesforce. com 的 多 用 户 基 础 设施 中 执行 ,开发 人 员 必 须知 
道 存 在 的 限制 。 例 如 ,他 们 必须 将 一 个 长 的 服务 调用 或 数据 请 求 划分 为 多 个 更 小 的 、 更 可 管 
理 的 部 分 。Iovino 说 ,开发 人 员 迅 速 把 这 种 概念 融入 到 他 们 的 思想 中 。 

Saugatuck Technology 公司 分 析 师 Mike West 说 ,研究 表明 PaaS 尽管 处 在 早期 采用 
者 的 阶段 ,但 由 于 其 投资 回报 , 仍 将 吸引 来 自 各 种 规模 的 企业 的 开发 人 员 。 他 说 :“ 比 例 越 
来 越 大 的 应 用 开发 资金 开始 涌 向 PaaS,” 


12.1.4 PaaS 推进 SaaS 时 代 











PaaS 充分 体现 了 因特网 低 成 本 、 高 效率 、 规 模 化 应 用 的 特性 ,我 们 相信 ,PaaS 必 将 把 
SaaS 模式 推进 一 个 全 新 快速 发 展 的 时 代 。 

在 传统 软件 激烈 的 你 争 我 夺 之 时 ,SaaS 模式 异军突起 ,以 其 零 安 装 零 维护 、 即 需 即 用 的 
特征 为 广大 企业 用 户 所 青睐 。SaaS 是 一 种 以 租赁 服务 形式 提供 企业 使 用 的 应 用 软件 ,企业 
通过 SaaS 服务 平台 能 够 自行 设 定 所 需要 的 功能 ,SaaS 服务 供 货 商 提供 相关 的 数据 库 、 服 务 
器 主机 连同 后 续 的 软件 和 硬件 维护 等 ,节省 了 大 量 用 于 购买 IT 产品 .技术 和 维护 运行 的 资 
金 , 大 幅度 降低 了 企业 信息 化 的 门槛 与 风险 。 

SaaS 提供 商 提供 的 应 用 程序 或 服务 通常 使 用 标准 Web 协议 和 数据 格式 ,以 提高 其 易 
用 性 并 扩大 其 潜在 的 使 用 范围 ,并 且 越 来 越 倾向 于 使 用 HTTP 和 常用 的 Web 数据 格式 ,如 
XML, RSS 和 JSON。 但 是 SaaS 提供 商 并 不 满足 于 此 ,他 们 一 直 在 思考 如 何 开拓 新 的 技术 ， 
推进 整个 SaaS 时 代 的 飞越 ,于 是 PaaS 出 现 了 。2007 年 国内 外 知名 厂商 先后 推出 自己 的 
PaaS 平台 ,其 中 包括 全 球 SaaS 模式 的 领导 者 salesforce. com 和 中 国 SaaS 的 发 起 者 八 百 
客 。PaaS 不 只 是 SaaS 的 延伸 ,更 是 一 个 能 够 提供 企业 进行 定制 化 研发 的 中 间 件 平台 ,除了 
应 用 软件 以 外 ,还 同时 涵盖 数据 库 和 应 用 服务 器 等 。PaaS 改变 了 了 SOA 创建 ,测试 和 部 署 
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的 位 置 ,并 且 在 很 大 程度 上 加 快 SOA 架构 搭建 的 速度 并 简化 了 搭建 过 程 。 这 仍然 是 关于 
架构 的 。 虽 然 技 术 是 不 断 变化 的 ,但 是 架构 却 是 不 变 的 。Paas 不 是 一 个 新 的 “拯救 世界 ”的 
概念 ,而 只 是 目前 思维 方式 的 延伸 及 对 新 兴 技 术 的 一 种 反应 ,比如 核心 业务 流程 外 包 和 基于 
Web 的 计算 。 随 着 越 来 越 多 的 PaaS 厂商 在 这 一 新 兴 领 域 共同 努力 ,可 以 预见 在 未 来 几 年 
里 会 有 一 些 相当 令 人 吃惊 的 产品 问世 。 这 对 于 那些 搭建 SOA 和 WOA 的 人 来 说 很 有 帮助 ， 
因为 他 们 可 以 选择 在 哪里 托管 这 些 进程 或 服务 ,在 防火 墙 内 部 还 是 外 部 。 事 实 上 ,很 多 人 都 
会 选用 PaaS 方法 ,因为 这 种 方法 的 成 本 及 部 署 速度 太 有 吸引 力 了 ,使 人 难以 拒绝 。 

PaaS 所 提倡 的 价值 不 只 是 简单 的 成 本 和 速度 ,还 更 注重 可 以 在 该 Web 平台 上 利用 的 
资源 数量 。 例 如 ,可 通过 远程 Web 服务 使 用 数据 即 服务 ,还 可 以 使 用 可 视 化 的 API 

Salesforce. com 亚太 区 业务 经 理 田 秋 豪 指出 :“PaaS 虽然 是 SaaS 服务 的 延伸 ,但 对 于 
Salesforce. com 而 言 ,将 会 因此 成 为 多 元 化 软件 服务 供 货 商 (Multi Application Vendor) ,不 
再 只 是 一 家 CRM 随 选 服务 提供 商 。”800app. com 副 总 经 理 王 琳 指出 :“ 通 过 PaaS 平台 ,我 
们 跨越 了 仅 是 CRM 供应 商 的 市 场 定 位 ,轻松 实现 了 BTOCBuilt to Order, 按 订单 生产 ) 和 在 
线 交付 流程 。 使 用 800app 的 PaaS 开发 平台 ,用 户 不 再 需要 任何 编程 即 可 开发 包括 CRM, 
OA .HR、SCM、 进 销 存 管 理 等 任何 企业 管理 软件 ,而 且 不 需要 使 用 其 他 软件 开发 工具 并 立 
即 在 线 运行 .” 王 琳 还 说 :“PaaS 是 管理 软件 开发 的 革命 ,企业 可 以 自己 把 自己 的 业务 流程 
和 想法 快速 应 用 到 管理 软件 中 去 ,也 就 是 企业 管理 软件 DIY (Do It Yourself, 自 己 动手 ), 从 
而 大 大 提高 工作 效率 和 执行 力 。” 

很 多 人 一 直 强 调 SaaS 最 大 的 吸引 力 在 于 其 可 灵活 个 性 化 定制 。PaaS 的 出 现 更 加 满足 
了 他 们 的 这 种 心理 “积木 王国 "中 有 各 式 各 样 的 "积木 ”, 企 业 可 以 按照 自己 的 想法 随意 
DIY。 这 就 像 将 家 具 拆 抒 , 顾 客 自己 组 装 作 为 自己 特色 的 宜家 。 宜 家 十 分 关注 不 同 顾客 群 
体 的 特别 需求 ,但 是 不 会 有 一 款 产 品 适合 所 有 人 ,于 是 “自己 动手 DIY” 就 成 了 宜家 的 经 营 理 
念 。 所 有 人 都 买 到 了 自己 称心 如 意 的 产品 ,或 是 时 尚 而 低廉 ,或 是 精美 而 奢华 。 总 之 总 能 在 
从 宜家 购物 出 来 的 客户 脸 上 看 到 满意 的 微笑 。 这 就 是 DIY 的 魅力 。PaaS 就 赋予 了 SaaS 
这 样 的 魅力 ,所 以 必 将 把 SaaS 推 向 一 个 新 的 发 展 阶段 。 

与 “企业 管理 软件 DIY” 一 样 共同 得 益 于 PaaS 平台 的 还 有 SaaS 产品 的 另 一 个 特色 
BTO, 企 业 提 需求 ,软件 厂商 “ 按 单 生 产 ”, 不 再 是 流水 线 似 的 大 规模 加 工 生产 ,而 是 完全 的 
按 单 生产 。 所 有 客户 都 是 VIP, 成 本 低 , 实 用 。 在 激烈 甚至 有 些 惨烈 的 笔记 本 计算 机 市 场 竞 
争 中 ,英特尔 公司 于 2002 年 率先 提出 BTO 概念 笔记 本 ,引发 了 笔记 本 计算 机 的 BTO 热 , 推 
动 了 整个 笔记 本 计算 机 行业 向 着 更 方便 .更 质 优 价 廉 ,服务 更 完善 发 展 。PaaS 也 提供 给 
SaaS 模式 一 个 BTO 的 “工厂 ”, 使 Saas 向 更 加 客户 化 、 灵 活 易 用 迈进 , 它 也 必 将 成 为 SaaS 
的 新 增长 点 。 

PaaS 充分 体现 了 因特网 低 成 本 、 高 效率 、 规 模 化 应 用 的 特性 。 我 们 相信 ,PaaS 必 将 把 
SaaS 模式 推进 一 个 全 新 快速 发 展 的 时 代 。 














12.2 PaaS 架构 


从 传统 角度 来 看 ,PaaS 实际 上 就 是 云 环境 下 的 应 用 基础 设施 ,也 可 理解 成 中 间 件 即 服 
务 , 如 图 12-2 所 示 。 
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图 12-2 PaaS 所 处 的 位 置 


12.2.1 PaaS 的 功能 


PaaS 为 部 署 和 运行 应 用 系统 提供 所 需 的 资源 应 用 基础 设施 ,所 以 应 用 开发 人 员 无 须 关 
心 应 用 的 底层 硬件 和 应 用 基础 设施 ,并 且 可 以 根据 应 用 需求 动态 扩展 应 用 系统 所 需 的 资源 。 
完整 的 PaaS 平台 应 提供 如 下 功能 : 

1. 应 用 运行 环境 

。 分 布 式 运行 环境 ; 

多 种 类 型 的 数据 存储 ; 

。 动态 资源 伸缩 。 

2. 应 用 全 生命 周期 支持 

提供 开发 SDK IDE 等 加 快 应 用 的 开发 ,测试 和 部 署 ; 

。 以 API 形式 提供 公共 服务 ,如 队列 服务 、 存 储 服务 和 缓存 服务 等 

。 提供 资源 池 、 应 用 系统 的 管理 和 监控 功能 ,精确 计量 ,明确 所 消耗 的 计算 资源 。 

3. 集成 .复合 应 用 构建 能 力 

除了 提供 应 用 运行 环境 外 ,还 需要 提供 连通 性 服务 、 整 合 服 务 、 消 息 服务 和 流程 服务 等 
用 于 构建 SOA 架构 风格 的 复合 应 用 。 

PaaS 的 全 局 功能 如 图 12-3 所 示 。 


12.2.2 多 租户 弹性 是 PaaS 的 核心 特性 


PaaS 的 特性 有 多 租户 、 弹 性 (资源 动态 伸缩 ) 统一 运 维 . 自 愈 、 细 粒度 资源 计量 `.SLA 
保障 等 。 这 些 特性 基本 上 也 都 是 云 计 算 的 特性 。 多 租户 弹性 是 Paas 区 别 于 传统 应 用 平台 
的 本 质 特 性 ,其 实现 方式 也 是 用 来 区 别 各 类 PaaS 的 最 重要 标志 ,因此 多 租户 弹性 是 PaaS 
的 最 核心 特性 。 

多 租户 (Multi-tenancy) 是 指 一 个 软件 系统 可 以 同时 被 多 个 实体 所 使 用 ,每 个 实体 之 间 
是 逻辑 隔离 、 互 不 影响 的 。 一 个 租户 可 以 是 一 个 应 用 ,也 可 以 是 一 个 组 织 。 弹 性 (Elasticity) 是 
指 一 个 软件 系统 可 以 根据 自身 需求 动态 的 增加 、 释 放 其 所 使 用 的 计算 资源 。 
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图 12-3 PaaS 的 全 局 功能 图 


多 租户 弹性 (Multi-tenancy Elastic) 是 指 租户 或 者 租户 的 应 用 可 以 根据 自身 需求 动态 
的 增加 、 释 放 其 所 使 用 的 计算 资源 。 技 术 上 来 说 ,多 租户 有 如 下 几 种 实现 方式 : 

(1) Shared-nothing: 为 每 一 个 租户 提供 一 套 和 On-premise 一 样 的 应 用 系统 ,包括 应 
用 、 应 用 基础 设施 和 基础 设施 。Shared-nothing 仅 在 商业 模式 上 实现 了 多 租户 。Shared- 
nothing 的 好 处 是 整个 应 用 系统 栈 都 不 需要 改变 .隔离 非常 彻底 ,但 是 技术 上 没有 实现 资源 
弹性 分 配 ,资源 不 能 共享 。 

(2) Shared-hardware: 共享 物理 机 ,虚拟 机 是 弹性 资源 调度 和 隔离 的 最 小 单位 ,典型 例 
子 是 Microsoft Azure。 传 统 软件 巨头 如 微软 公司 和 IBM 等 拥有 非常 广 的 软件 产品 线 ,在 
On-premise 时 代 占 据 主 导 地 位 后 ,他 们 在 云 时 代 的 策略 就 是 继续 将 On-premise 软件 Stack 
装 到 虚拟 机 中 并 提供 给 用 户 。 

(3) Shared-OS; 共享 操作 系统 ,进程 是 弹性 资源 调度 和 隔离 的 最 小 单位 。 相 比 于 
Shared-hardware,Shared-OS 能 实现 更 小 粒度 的 资源 共享 ,但 是 安全 性 方面 会 差 些 。 

(4) Shared-everything: 基于 元 数据 模型 以 共享 一 切 资源 ,典型 例子 是 force. com, 
Shared-everything 方式 能 够 实现 最 高 效 的 资源 共享 ,但 实现 技术 难度 大 ,安全 和 可 扩展 性 
方面 会 面临 很 大 的 挑战 。 


12.2.3 PaaS 架构 的 核心 意义 


在 云 产 业 链 中 ,如 同 传统 中 间 件 所 起 的 作用 一 样 ,PaaS 也 将 会 是 产业 链 的 制高点 。 无 
论 是 在 大 型 企业 私有 云 中 .还 是 在 中 小 企业 和 ISV 所 关心 的 应 用 云 中 ,PaaS 都 将 起 到 核心 
的 作用 。 

1. 以 PaaS 为 核心 构建 企业 私有 云 

大 型 企业 都 有 复杂 的 IT 系统 ,甚至 自己 筹建 了 大 型 数据 中 心 ,其 运行 维护 工作 量 非常 
大 ,同时 资源 的 利用 率 又 很 低 。 据 统计 ,大 部 分 企业 数据 中 心 的 计算 资源 利用 率 都 不 超过 
30%。 在 这 种 情况 下 ,企业 迫切 需要 找到 一 种 方法 整合 全 部 IT 资源 ,进行 池 化 ,并 且 以 动 
态 可 调度 的 方式 供应 给 业务 部 门 。 大 型 企业 建设 内 部 私有 云 有 两 种 模式 ,一 种 是 以 IaaS 为 
核心 ,另外 一 种 是 以 PaaS 为 核心 ,如 图 12-4 所 示 。 
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(a) 以 Iaas 为 核心 的 模式 (b) 以 PaaS 为 核心 的 模式 
图 12-4 两 种 模式 架构 


企业 会 采用 成 熟 的 虚拟 化 技术 首先 实现 基础 设施 的 池 化 和 自动 化 调度 。 当 前 有 大 量 电 
信 运 营 商 ,制造 企业 和 产业 园区 都 在 进行 相关 的 试点 。 但 是 ,私有 云 建 设 万 不 可 局 限于 
IaaS, 因 为 IaaS 只 关注 解决 基础 资源 云 化 问题 ,解决 的 主要 是 IT 问题。 在 IaaS 的 技术 基础 
上 进一步 架构 企业 PaaS 平台 将 能 带 来 更 多 的 业务 价值 。Paas 的 核心 价值 是 让 应 用 及 业务 
更 敏捷 IT 服务 水 平 更 高 ,并 实现 更 高 的 资源 利用 率 。 

以 PaaS 为 核心 的 私有 云 建设 模式 是 在 IaaS 的 资源 池上 进一步 构建 PaaS 能 力 ,提供 内 
部 云 平 台 、 外 部 SaaS 运营 平台 和 统一 的 开发 ,测试 环境 。 

(1) 内 部 云 平 台 : 建立 业务 支撑 平台 。 

(2) 外 部 SaaS 运营 平台 : 向 企业 外 部 供应 商 或 者 客户 提供 SaaS 应 用 。 

(3) 开发 .测试 环境 : 为 开发 人 员 提 供 统一 的 开发 和 测试 环境 平台 。 

以 某 航 空运 输 领 域 的 集团 为 例 。 它 正 从 单一 的 航空 运输 企业 转型 为 以 航空 旅游 、 现 代 
物流 、 现 代金 融 服务 三 大 链条 为 支柱 ,涵盖 “ 吃 \ 住 . 行 . 游 . 购 . 娱 6 大 产业 要 素 的 现代 服务 
业 综合 运营 商 ,其 产业 覆盖 航空 运输 .旅游 服务 .现代 物流 、 金 融 服 务 .商贸 零售 .房地产 开发 
与 管理 ,机 场 管 理 。 对 于 这 么 一 个 大 型 企业 集团 ,当前 信息 化 的 挑战 不 仅 在 于 如 何 高 效 整 
合 、 集 中 管控 整个 集团 的 IT 资源 ,更 重要 的 在 于 如 何 快速 地 、 更 好 地 满足 客户 的 需求 ,如 何 
更 高 效 地 整合 外 部 供应 商 , 使 IT 真正 成 为 其 创新 的 驱动 力 。 云 计算 为 该 集团 带 来 契机 ,以 
PaaS 为 核心 构建 其 对 内 、 对 外 云 平台 必 将 成 为 其 最 佳 选择 ,如 图 12-5 所 示 。 

2. 以 PaaS 为 核心 构建 和 运营 下 一 代 SaaS 应 用 

对 于 中 小 企业 来 说 ,大 部 分 缺乏 专业 的 IT 团队 ,并 且 难 以 承受 高 额 的 前 期 投入 ,他 们 
往往 很 难 通 过 自 建 IT 的 思路 来 实现 信息 化 ,所 以 SaaS 是 中 小 企业 的 天 然 选 择 。 然 而 ， 
SaaS 这 么 多 年 来 在 国内 的 发 展 状况 一 直 没 有 达到 各 方 的 预期 。 抛 开 安 全 问题 不 讲 , 最 主要 
的 其 他 两 个 原因 是 传统 SaaS 应 用 难以 进行 二 次 开发 以 满足 企业 个 性 需求 ,并 缺少 能 够 提供 
一 站 式 SaaS 应 用 服务 的 运营 商 。 

无 论 是 Salesforce. com, 还 是 国内 的 SaaS 供应 商都 意识 到 SaaS 的 未 来 在 于 PaaS ,需要 
以 PaaS 为 核心 来 构建 和 运营 新 一 代 的 SaaS 应 用 ,如 图 12-6 所 示 。 

在 云 计算 时 代 , 中 小 企业 市 场 的 机 会 比 以 往 任何 时 候 都 大 。 在 这 个 以 PaaS 为 核心 的 
生态 链 中 ,每 个 参与 者 都 得 到 了 价值 的 提升 。 

(1) 中 小 企业 : 一 站 式 的 SaaS 应 用 服务 ; 可 定制 的 SaaS 应 用 。 
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图 12-5 ”以 PaaS 为 核心 的 云 架构 
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图 12-6 ”以 PaaS 为 核心 构建 SaaS 


(2) SaaS 运营 商 : 基于 统一 PaaS 平台 提供 一 站 式 的 SaaS 应 用 服务 ; 实现 规模 效应 。 

(3) 应 用 开发 商 ; 基于 PaaS 平台 ,将 已 开发 的 成 熟 应 用 SaaS 化 、 开 发 新 的 SaaS 应 用 ; 
为 中 小 企业 提供 二 次 开发 服务 ; 开发 效率 得 到 提升 。 

CA) 基础 设施 提供 商 : 专注 于 基础 设施 运 维 ; 实现 资源 更 高 效 利 用 和 回报 。 


12.2.4 PaaS 改变 未 来 软件 开发 和 维护 模式 


PaaS 改变 了 传统 的 应 用 交付 模式 ,如 图 12-7 所 示 , 促 进 了 分 工 的 进一步 专业 化 ,整合 
开发 团队 和 运 维 团 队 , 将 极 大 地 提高 未 来 软件 交付 的 效率 ,是 开发 和 运 维 团 队 之 间 的 桥梁 ， 
如 图 12-8 所 示 。 
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传统 方式 传统 方式 传统 方式 传统 方式 
。 环 境 搭建 。 硬 件 申请 。 新 硬件 申请 。 独 立 软 硬 件 维护 
。 应 用 构建 。 软 件 堆栈 安装 。 软 件 堆栈 安装 。 独 立 版 本 控制 


。 配 置 、 部 署 。 集 群 配置 。 独 立 监控 配置 
PaaS 
。 统 一 的 DTAP 环 PaaS PaaS PaaS 
境 (开发 -测试 - 验 。 自 动 部 署 。 共 享 资源 池 。 平 台 共享 





收 -生产 ) 
s 平 台 公 有 服务 
。 应 用 构建 


。 应 用 动态 伸缩 。 版 本 控制 
。 统 一 监控 





图 12-7 PaaS 改变 传统 的 应 用 交付 





Hi 专注 于 应 用 开发 
A 向 化 应 用 开发 
队 | x 无 须 处 理应 用 基础 设施 栈 





Siege 














PaaS 平 台 
z v 专注 基础 设施 
团 | 简化 大 规模 运 维 
队 | Xx 无须 关注 应 用 细节 





图 12-8 PaaS 是 开发 和 运 维 团队 之 间 的 桥梁 


12.3 Google 的 云 计 算 平 台 


Google 的 云 计算 技术 实际 上 是 针对 Google 特定 的 网 络 应 用 程序 而 定制 的 。 针 对 内 部 
网 络 数据 规模 超大 的 特点 ,Google 提出 了 一 整套 基于 分 布 式 并 行 集群 方式 的 基础 架构 , 利 
用 软件 的 能 力 来 处 理 集群 中 经 常 发 生 的 节点 失效 问题 。 

从 2003 年 开始 ,Google 连续 几 年 在 计算 机 系统 研究 领域 的 最 顶级 会 议 与 杂志 上 发 表 
论文 ,揭示 其 内 部 的 分 布 式 数据 处 理 方法 ,向 外 界 展示 其 使 用 的 云 计算 核心 技术 。 从 其 近 几 
年 发 表 的 论文 来 看 ,Google 使 用 的 云 计算 基 础 架构 模式 包括 4 个 相互 独立 又 紧密 结合 在 一 
起 的 系统 ,包括 Google 建立 在 集群 之 上 的 文件 系统 Google File System, 针 对 Google 应 用 
程序 的 特点 提出 的 MapReduce 编程 模式 ,分 布 式 的 锁 机 制 Chubby 及 Google 开发 的 模型 
简化 的 大 规模 分 布 式 数据 库 BigTable。Google 在 强大 的 基础 设施 之 上 构筑 了 Google App 
Engine 这 项 PaaS 服务 ,成 为 功能 最 全 面 的 PaaS 平台 。 

Google App Engine 提供 一 整套 开发 组 件 来 让 用 户 轻 松 地 在 本 地 构建 和 调试 网 络 应 
用 ,之 后 能 让 用 户 在 Google 强大 的 基础 设施 上 部 署 和 运行 网 络 应 用 程序 ,并 自动 根据 应 用 
所 承受 的 负载 对 应 用 进行 扩展 .并 免 去 用 户 对 应 用 和 服务 器 等 的 维护 工作 ,同时 提供 大 量 的 
免费 额度 和 灵活 的 资费 标准 。 在 开发 语言 方面 , 现 支 持 Java 和 Python 这 两 种 语言 ,并 为 这 
两 种 语言 提供 基本 相同 的 功能 和 API 
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12.3.1 设计 理念 


App Engine 在 设计 理念 方面 主要 可 以 总 结 为 下 面 这 5 条: 

1. 重用 现 有 的 Google 技术 

大 家 都 知道 ,重用 是 软件 工程 的 核心 理念 之 一 ,因为 通过 重用 不 仅 能 降低 开发 成 本 ,而 
且 能 简化 架构 。 在 App Engine 开发 的 过 程 中 ,重用 的 思想 也 得 到 了 非常 好 的 体现 ,比如 
Datastore 是 基于 Google 的 Bigtable 技术 ,Images 服务 是 基于 Picasa 的 ,用 户 认 证 服务 是 
利用 Google Account 的 ,E-mail 服务 是 基于 Gmail 的 等 。 

2. 无 状态 

为 了 更 好 地 支持 扩展 ,Google 没有 在 应 用 服务 器 层 存 储 任何 重要 的 状态 ,而 主要 在 
Datastore 层 对 数据 进行 持久 化 ,这 样 当 应 用 流量 突然 爆发 时 ,可 以 通过 应 用 添加 新 的 服务 
器 来 实现 扩展 。 

3. 硬 限制 

App Engine 对 运行 在 其 上 的 应 用 代码 设置 了 很 多 硬性 限制 ,比如 无 法 创建 Socket 和 
Thread 等 有 限 的 系统 资源 ,这 样 能 保证 不 让 一 些 恶性 的 应 用 影响 到 与 其 临近 应 用 的 正常 运 
行 ,同时 也 能 保证 在 应 用 之 间 能 做 到 一 定 的 隔离 。 

4. 利用 Protocol Buffers 技术 解决 服务 方面 的 异 构 性 

应 用 服务 器 和 很 多 服务 相连 ,有 可 能 会 出 现 异 构 性 的 问题 ,比如 应 用 服务 器 是 用 Java 
写 的 ,而 部 分 服务 是 用 C++ 写 的 等 。Google 在 这 方面 的 解决 方法 是 基于 语言 中 立 、 平 台 
中 立 和 可 扩展 的 Protocol Buffer, 并 且 在 App Engine 平 台 上 所 有 API 的 调用 都 需要 在 进 
行 RPC(Remote Procedure Call, 远程 方 面 调用 ) 之 前 被 编译 成 Protocol Buffer 的 二 进 制 
格式 。 

5. 分 布 式 数据 库 

因为 App Engine 将 支撑 海量 的 网 络 应 用 ,所 以 独立 数据 库 的 设计 肯定 是 不 可 取 的 ,而 
且 很 有 可 能 将 面 对 起 伏 不 定 的 流量 ,所 以 需要 一 个 分 布 式 的 数据 库 来 支撑 海量 的 数据 和 海 
量 的 查询 。 


12.3.2 构成 部 分 


GAE 的 架构 如 图 12-9 所 示 。 

1. 前 端 

共 包 括 4 个 模块 : 

。 Front End。 既 可 以 认为 是 Load Balancer, 也 可 以 认为 是 Proxy, 主 要 负责 负载 均衡 
和 将 请 求 转发 给 App Server( 应 用 服务 器 ) 或 者 Static Files 等 工作 。 

Static Files。 在 概念 上 比较 类 似 于 CDN(Content Delivery Network, 内容 分 发 网 
络 ), 用 于 存储 和 传送 那些 应 用 附带 的 静态 文件 ,比如 图 片 .CSS 和 JS 脚本 等 。 

App Server。 用 于 处 理 用 户 发 来 的 请 求 ,并 根据 请 求 的 内 容 调 用 后 面 的 Datastore 
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和 服务 群 。 
。 App Master。 在 应 用 服务 器 间 调 度 应 用 ,并 将 调度 之 后 的 情况 通知 Front End, 


Google App Engine 





12-9 GAE 的 架构 图 


2. Datastore 


基于 BigTable 技术 的 分 布 式 数据 库 , 虽 然 也 可 以 被 理解 成 一 个 服务 ,但 由 于 其 是 整个 
App Engine 唯一 存储 持久 化 数据 的 地 方 ,因此 是 App Engine 中 一 个 非常 核心 的 模块 。 具 
体 细节 将 在 下 篇 和 大 家 讨论 。 


3. 服务 群 


整个 服务 群 包括 很 多 服务 供 App Server 调用 ,比如 Memcache、 图 形 、 用 户 .URL 抓 取 
和 任务 队列 等 。 


12.3.3 App Engine 服务 

App Engine 提供 了 多 种 服务 ,从 而 使 用 户 可 以 在 管理 应 用 程序 的 同时 执行 常规 操作 。 
它 提供 了 以 下 API 访 问 这 些 服务 。 

1. 网 址 获取 


应 用 程序 可 以 使 用 App Engine 的 网 址 获取 服务 访问 因特网 上 的 资源 ,如 网 络 服务 或 
其 他 数据 。 


2. 邮件 


应 用 程序 可 以 使 用 App Engine 的 邮件 服务 发 送 电 子 邮 件 。 邮 件 服务 使 用 Google 基础 
架构 发 送 电 子 邮 件 。 
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3. Memcache 

Memcache 服务 为 用 户 的 应 用 程序 提供 了 高 性 能 的 内 存 键 值 缓存 ,可 通过 应 用 程序 的 
多 个 实例 访问 该 缓存 。Memcache 对 于 那些 不 需要 数据 库 的 永久 性 功能 和 事务 功能 的 数据 
很 有 用 ,例如 临时 数据 或 从 数据 库 复制 到 缓存 以 进行 高 速 访问 的 数据 。 

4. 图 片 操作 

图 片 服务 使 用 户 的 应 用 程序 可 以 对 图 片 进行 操作 。 使 用 API 可 以 对 JPEG 和 PNG 格 
式 的 图 片 进行 大 小 调整 , 剪 切 、 旋 转 和 翻转 。 


12.4 Windows Azure 平 台 


Windows Azure 平台 目前 包含 Windows Azure、 SQL Azure 和 Windows Azure 
Platform AppFabric 三 大 部 分 ,如 图 12-10 所 示 。 其 中 Windows Azure 是 平台 最 为 核心 的 
组 成 部 分 ,被 称 为 云 计 算 操 作 系 统 。 但 是 它 履行 了 资源 管理 的 职责 ,只 不 过 它 管理 的 资源 更 
为 宏观 ,数据 中 心 的 所 有 服务 器 存储、 交换 机 、 负 载 均衡 器 等 都 接受 它 的 管理 。 因 为 未 来 的 
数据 中 心 会 越 来 越 像 一 台 超级 计算 机 ,所 以 Windows Azure 也 会 越 来 越 像 一 个 超级 操作 系 
统 。Windows Azure 的 设计 团队 中 就 有 许多 微软 公司 技术 重量 级 人 物 ,其 中 包括 Dave 
Cutler, 他 被 称 为 Windows NT 和 VMS 之 父 。 
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图 12-10 Windows Azure 平台 组 成 


Windows Azure 为 开发 者 提供 了 托管 的 .可 扩展 的 、 按 需 应 用 的 计算 和 存储 资源 ,还 为 
开发 者 提供 了 云 平台 管理 和 动态 分 配 资 源 的 控制 手段 。Windows Azure 是 一 个 开放 的 平 
台 , 支 持 微软 公司 和 非 微 软 公司 的 语言 和 环境 。 开 发 人 员 在 构建 Windows Azure 应 用 程序 
和 服务 时 ,不 仅 可 以 使 用 熟悉 的 Microsoft Visual Studio, Eclipse 等 开发 工具 ,同时 
Windows Azure 还 支持 各 种 流行 的 标准 与 协议 ,包括 SOAP、REST、XML 和 HTTPS 等 。 








12.4.1 Windows Azure 操作 系统 


Windows Azure 是 Windows Azure Platform 上 运行 云 服务 的 底层 操作 系统 ,微软 公司 
将 Windows Azure 定 为 云 中 操作 系统 的 商标 , 它 提供 了 托管 云 服务 需 要 的 所 有 功能 ,包括 
运行 时 环境 ,如 Web 服务 器 .计算 服务 基础 存储 队列、 管理 服务 和 负载 均衡 。Windows 
Azure 也 为 开发 人 员 提 供 了 本 地 开发 网 络 ,在 部 署 到 云 之 前 ,可 以 在 本 地 构建 和 测试 服务 ， 
图 12-11 显示 了 Windows Azure 的 三 个 核心 服务 。 





ry 


第 12 章 于 





即 服务 < 











Windows Azure 


12-11 Windows Azure 核心 服务 











Windows Azure 的 三 个 核心 服务 分 别 是 计算 (Compute)、 存 储 (Storage) 和 管理 
(Management) 。 

(1) 计算 。 计 算 服务 在 64 位 Windows Server 2008 平台 上 由 Hyper-V 支持 提供 可 扩 
展 的 托管 服务 ,这 个 平台 是 虚拟 化 的 ,可 根据 需要 动态 调整 。 

(2) 存储 。Windows Azure 支持 三 种 类 型 的 存储 ,分 别 是 Table、Blob 和 Queue。 它 们 
支持 通过 REST API 直接 访问 。 注 意 , Windows Azure Table 和 传统 的 关系 数据 库 Table 
有 着 本 质 的 区 别 , 它 有 独立 的 数据 模型 ,Table 通常 用 来 存储 TB 级 高 可 用 数据 ,如 电子 商务 
网 站 的 用 户 配 置 数据 ; Blob 通常 用 来 存储 大 型 二 进 制 数据 ,如 视频 、 图 片 和 音乐 ,每 个 Blob 
最 大 支持 存储 50GB 数据 ; Queue 是 连接 服务 和 应 用 程序 的 异步 通信 信道 ,可 以 在 一 个 
Windows Azure 实例 内 使 用 ,也 可 以 跨 多 个 Windows Azure 实例 使 用 , Queue 基础 设施 支 
持 无 限 数量 的 消息 ,但 每 条 消息 的 大 小 不 能 超过 8KB。 任 何 有 权 访 问 云 存储 的 账户 都 可 以 
访问 Table、Blob 和 Queue。 

(3) 管理 。 包 括 虚拟 机 授权 ,在 虚拟 机 上 部 署 服务 ,配置 虚拟 交换 机 和 路 由 器 ,负载 均 
衡 等 。 





12.4.2 SQL Azure 


SQL Azure 是 Windows Azure Platform 中 的 关系 数据 库 , 它 以 服务 的 形式 提供 核心 关 
系数 据 库 功能 。SQL Azure 构建 在 核心 SQL Server 产品 代码 基础 上 ,开发 人 员 可 以 使 用 
TDS(Tabular Data Stream) 访 问 SQL Azure。 12-12 显示 了 SQL Azure 的 核心 组 件 。 


SQL Azure 


| us | | 管理 | | smm | 


关系 数据 存储 


图 12-12 SQL Azure 核心 组 件 




















SQL Azure 的 核心 组 件 包括 关系 数据 存储 (Relational Data Storage)、 数 据 同 步 (Data 
Sync) .管理 (Management) 和 数据 访问 (Data Access), 

(1) 关系 数据 存储 : 它 是 SQL Azure 的 支柱 ,提供 传统 SQL Server 的 功能 ,如 表 、 视 
图 、 函 数 、 存 储 过 程 、 触 发 器 等 。 

(2) 数据 同步 : 提供 数据 同步 和 聚合 功能 。 
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(3) 管理 : 为 SQL Azure 提供 自动 配置 计量 、 计 费 、 负 载 均衡 容错 和 安全 功能 。 
(4) 数据 访问 : 定义 访问 SQL Azure 的 不 同 编程 方法 ,目前 SQL Azure 支持 TDS, 包 
括 ADO. NET.、 实 体 框架 .ADO. NET Data Service.ODBC、JDBC 和 LINQ 客户 端 。 


12.4.3 .NET 服务 


.NET 服务 是 Windows Azure Platform 的 中 间 件 引擎 ,提供 访问 控制 服务 和 服务 总 线 。 
图 12-13 显示 了 . NET 服务 的 两 个 核心 服务 。 




















.NET 服 务 (1) 访问 控制 (Access Control): 访问 控制 组 
件 为 分 布 式 应 用 程序 提供 规则 驱动 ,基于 声明 的 访 
访问 控制 | | 服务 总 线 | 问 控制 。 


(2) 服务 总 线 (Service Bus): 与 企业 服务 总 线 
(Enterprise Service Bus,ESB) 类 似 , 但 它 是 基于 因 
图 12-13 .NET 服务 的 核心 服务 特 网 的 ,消息 可 以 跨 企 业 、 跨 云 传输 。 它 也 提供 发 
布 /订阅 、 点 到 点 和 队列 等 消息 交换 机 制 。 








12.4.4 Live 服务 


Microsoft Live 服务 是 以 消费 者 为 中 心 的 应 用 程序 和 框架 的 集合 ,包括 身份 管理 、 搜 
索 , 地 理 空间 应 用 、 通 信 、 存 储 和 同步 。 图 12-14 显示 了 Live 服务 的 核心 组 件 。 


























Live 操 作 环境 。 | ”Live 程序 模型 
图 12-14 Live 服务 的 核心 组 件 








(1) Mesh 服务 (Mesh Service); 向 用 户 、 设 备 、 应 用 程序 和 数据 同步 提供 编程 访问 。 

(2) 身份 服务 (Identity Service): 提供 身份 管理 和 授权 认证 。 

(3) 目录 服务 (Directory Service): 管理 用 户 、 标 识 、 设 备 、 应 用 程序 和 它们 连接 的 网 络 
的 关系 ,如 Live Mesh 中 用 户 和 设备 之 间 的 关系 。 

(4) 存储 (Storage) : 管理 Mesh 中 用 户 、 设 备 和 应 用 程序 的 数据 临时 性 存储 及 持久 化 
存储 ,如 Windows Live Skydrive。 

(5) 通信 和 状态 (Communications & Presence): 提供 设备 和 应 用 程序 之 间 的 通信 基础 
设施 ,管理 它们 之 间 的 连接 和 显示 状态 信息 ,如 Windows Live Messenger 和 Notifications API. 

(6) 搜索 (Search) : 为 用 户 、 网 站 和 应 用 程序 提供 搜索 功能 ,如 Bing. 

(7) 地 理 空间 (Geospatial) : 提供 丰富 的 地 图 、 定 位 、 路 线 , 搜 索 , 地 理 编码 和 反 向 地 理 
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编码 服务 ,如 Bing 地 图 。 
(8) Live 框架 (Live Framework); Live 框架 是 跨 平 台 、 跨 语言 . 跨 设备 Live 服务 编程 
统一 模型 。 





12.4.5 Windows Azure Platform 的 用 途 


根据 微软 公司 公司 官方 的 说 法 ,Windows Azure Platform 的 主要 用 途 是 : 

(1) 给 现 有 打包 应 用 程序 增加 Web 服务 功能 。 

(2) 用 最 少 的 资源 构建 ,修改 和 分 发 应 用 程序 到 Web 上 。 

(3) 执行 服务 ,如 大 容量 存储 、 批 处 理 操作 、 高 强度 计算 等 。 

(4) 快速 创建 、 测 试 、 调 试 和 分 发 Web 服务 。 

(5) 降低 构建 和 扩展 资源 的 成 本 和 风险 。 

(6) 减少 IT 管理 工作 和 成 本 。 

微软 公司 是 在 2008 年 10 月 末 发 布 Azure 的 ,在 当时 的 经 济 环境 下 ,Azure 的 到 来 给 正 
处 于 经 济 寒冬 的 中 小 型 企业 ,甚至 是 大 型 企业 带 来 了 一 阵 春风 ,降低 成 本 成 为 企业 选择 
Azure 的 主要 动机 。 

微软 公司 设计 Azure Platform 时 充分 考虑 了 现 有 的 成 熟 技 术 和 技术 人 员 的 知识 ， 
. NET 开发 人 员 可 以 继续 使 用 Visual Studio 2008 创建 运行 于 Azure 的 ASP. NET Web 应 
用 程序 和 WCF(Windows Communication Framework) 服务, Web 应 用 程序 运行 在 一 个 IIS 
(Internet Information Services)7 沙 盒 版 本 中 ,以 文件 系统 为 基础 的 网 站 项 目 不 受 支 持 , 后 
来 微软 公司 推出 了 “持久 化 Drive” 存 储 , Web 应 用 程序 和 基于 Web 的 服务 以 部 分 信任 代码 
访问 安全 (Code Access Security) 模 式 运行 ,基本 符合 ASP. NET 的 中 等 信任 和 对 某 些 操作 
系统 资源 的 有 限 访问 。 

Windows Azure SDK 为 调用 非 . NET 代码 启用 了 非 强 制 的 完全 信任 代码 访问 安全 ,使 
用 要 求 完 全 信任 的 . NET 库 ,使 用 命名 管道 处 理 内 部 通信 。 微 软 公司 承诺 在 云 平 台中 支持 
Ruby,PHP 和 Python 代码 ,最 初 的 开发 平台 仅 限 于 支持 Visual Studio 2008 及 更 高 版 本 ， 
未 来 有 计划 支持 Eclipse。 

Azure Platform 支持 的 Web 标准 和 协议 包括 SOAP, HTTP, XML, Atom 和 AtomPub。 


12.5 本 章 小 结 


本 章 介绍 了 云 计算 环境 中 的 PaaS. PaaS 指 把 服务 器 平台 作为 一 种 服务 提供 的 商业 模 
式 , 能 够 为 应 用 程序 的 执行 弹性 地 提供 所 需 的 资源 ,并 根据 用 户 程序 对 实际 资源 的 使 用 收取 
费用 。 

PaaS 通过 因特网 为 用 户 提供 的 平台 是 一 种 应 用 开发 与 执行 环境 ,根据 一 定 规律 开发 出 
来 的 应 用 程序 可 以 运行 在 这 个 环境 之 内 ,并 且 其 生命 周期 能 够 被 该 环境 所 控制 ,而 并 非 只 是 
简单 地 调用 平台 提供 的 接口 。 从 应 用 开发 者 的 角度 看 ,PaaS 是 因特网 资源 的 聚合 和 共享 ， 
开发 者 可 以 灵活 、 充 分 地 利用 服务 提供 商 提 供 的 应 用 能 力 便 捷 地 开发 因特网 应 用 ; 从 服务 
提供 商 的 角度 看 ,PaaS 通过 提供 易 用 的 开发 平台 和 便利 的 运行 平台 ,吸引 更 多 的 应 用 程序 
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和 用 户 , 从 而 获得 更 大 的 市 场 份额 并 扩大 收益 。 

PaaS 的 特性 有 多 租户 、 弹 性 (资源 动态 伸缩 ) 、 统 一 运 维 、 自 僵 、 细 粒度 资源 计量 ,SLA 
保障 等 。 多 租户 弹性 是 PaaS 区 别 于 传统 应 用 平台 的 本 质 特性 ,其 实现 方式 也 是 用 来 区 别 
各 类 PaaS 的 最 重要 标志 ,因此 多 租户 弹性 是 PaaS 的 最 核心 特性 。 多 租户 弹性 (Multi- 
Tenancy Elastic) 是 指 租户 或 者 租户 的 应 用 可 以 根据 自身 需求 动态 的 增加 、 释 放 其 所 使 用 的 
计算 资源 。 

Google App Engine 和 Windows Azure Platform 都 是 Paas 的 现实 案例 。 
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软件 即 服务 


SaaS(Software as a Service ,软件 即 服 务 ) 是 指 通过 Internet 提供 软件 的 模式 ,厂商 将 应 
用 软件 统一 部 署 在 自己 的 服务 器 上 ,客户 可 以 根据 自己 的 实际 需求 ,通过 因特网 向 厂商 定购 
所 需 的 应 用 软件 服务 , 按 定购 的 服务 多 少 和 时 间 长 短 向 厂商 支付 费用 ,并 通过 因特网 获得 厂 
商 提供 的 服务 。SaaS 是 随 着 因特网 技术 的 发 展 和 应 用 软件 的 成 熟 而 在 21 世纪 开始 兴起 的 
一 种 完全 创新 的 软件 应 用 模式 。 

不 同 于 基础 设施 层 和 平台 层 , 软 件 即 服务 层 中 提供 给 用 户 的 是 千变万化 的 应 用 ,为 企业 
和 机 构 用 户 简 化 IT 流程 ,为 个 人 用 户 提高 日 常生 活 方方面面 的 效率 。 这 些 应 用 都 是 能 够 
在 云端 运行 的 技术 .业界 将 这 些 技术 或 者 功能 总 结 、 抽 象 并 定义 为 Saas 平台 。 开 发 者 可 以 
使 用 SaaS 平台 提供 的 常用 功能 ,减少 应 用 开发 的 复杂 度 和 时 间 , 而 专注 于 业务 自身 及 其 
创新 。 

本 章 先 概述 SaaS, 介 绍 SaaS 的 框架 ,最 后 对 SaaS 领域 的 领先 者 Salesforce 进行 介绍 。 








13.1 SaaS 概述 


从 本 质 上 来 说 ,SaaS 是 近年 来 兴起 的 一 种 将 软件 转变 成 服务 的 模式 ,为 人 们 认识 、 应 用 
和 改变 软件 提供 了 一 个 新 的 角度 。 在 这 个 新 的 视角 下 ,人 们 重新 审视 软件 及 其 相关 属性 ,发 
掘 出 了 软件 的 一 些 别 有 价值 的 关注 点 ,为 软件 的 设计 、 开 发 ,发 布 和 经 营 等 活动 找到 了 一 套 
不 同 于 以 往 的 方法 和 途径 .这 就 是 SaaS。 














13.1.1 SaaS 的 由 来 


软件 即 服务 不 是 新 产物 , 早 在 2000 年 左右 ,SaaS 作为 一 种 能 够 降低 成 本 、 快 速 获得 价 
值 的 软件 交付 模式 而 被 提出 。 在 近 十 年 的 发 展 中 ,SaaS 的 应 用 面 不 断 扩展 。 随 着 云 计算 的 
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兴起 ,SaaS 作为 一 种 最 契合 云端 软件 的 交付 模式 成 为 瞩目 的 焦点 。 根 据 Saugauck 技术 公 
司 撰写 的 分 析 报告 ,指出 SaaS 的 发 展 被 分 为 连续 而 有 所 重合 的 三 个 阶段 : 

第 一 个 阶段 为 2001 一 2006 年 ,SaaS 针对 的 问题 范围 主要 停留 在 如 何 降低 软件 使 用 者 
消耗 在 软件 部 署 、 维 护 和 使 用 上 的 成 本 。 

第 二 个 阶段 为 2005 一 2010 年 ,SaaS 理念 被 广泛 地 接受 ,在 企业 IT 系统 中 扮演 着 越 来 
越 重要 的 角色 。 如 何 将 SaaS 应 用 与 企业 既 有 的 业务 流程 和 业务 数据 进行 整合 成 为 这 一 阶 
BER. Saas 开始 进入 主流 商业 应 用 领域 。 

第 三 个 阶段 为 2008 一 2013 年 ,SaaS 将 成 为 企业 整体 IT 战略 的 关键 部 分 。SaaS 应 用 
与 企业 应 用 已 完成 整合 ,使 企业 的 既 有 业务 流程 更 加 有 效 运转 ,并 使 新 创 的 业务 成 为 
可 能 。 


13.1.2 SaaS 的 概念 


1. SaaS 相关 观点 
关于 对 SaaS 如 何 准确 定义 尚未 定论 ,人 们 对 SaaS 的 认识 主要 有 以 下 一 些 观点 : 
(1) SaaS 是 客户 通过 因特网 标准 的 浏览 器 (例如 IE) 使 用 软件 的 所 有 功能 ,而 软件 及 相 
关 硬 件 的 安装 、 升 级 和 维护 都 由 服务 商 完成 ,客户 按照 使 用 量 向 服务 商 支 付 服务 费用 。 
(2) SaaS 由 传统 的 ASP 演变 而 来 ,都 是 “软件 部 署 为 托管 服务 ,通过 因特网 存 取 ”。 不 
同 之 处 在 于 传统 的 ASP 只 是 针对 每 个 客户 定制 不 同 的 应 用 ,而 没有 将 所 有 的 客户 放 在 一 起 
进行 考虑 。 在 SaaS 模式 中 ,在 用 户 和 Web 服务 器 上 的 应 用 之 间 增 加 了 一 个 中 间 层 ,这 个 中 
间 层 用 来 处 理 用 户 的 定制 .扩展 性 和 多 用 户 的 效率 问题 。 
(3) SaS 有 三 层 含 义 : 
。 表现 层 : SaaS 是 一 种 业务 模式 ,这 意味 着 用 户 可 以 通过 租用 的 方式 远程 使 用 软件 ， 
解决 了 投资 和 维护 问题 。 而 从 用 户 角 度 来 讲 ,SaaS 是 一 种 软件 租用 的 业务 模式 。 
。 接口 层 : SaaS 是 统一 的 接口 方式 ,可 以 方便 用 户 和 其 他 应 用 在 远程 通过 标准 接口 调 
用 软件 模块 ,实现 业务 组 合 。 
。 应 用 实现 层 ; SaaS 是 一 种 软件 能 力 , 软 件 设 计 必 须 强 调配 置 能 力 和 资源 共享 ,使 得 
一 套 软件 能 够 方便 地 服务 于 多 个 用 户 。 
2. SaaS 的 定义 
根据 以 上 的 认识 ,SaaS 是 一 种 通过 因特网 提供 软件 的 模式 ,厂商 将 应 用 软件 统一 部 署 
在 自己 的 服务 器 上 ,客户 可 以 根据 自己 实际 需求 ,通过 因特网 向 厂商 定购 所 需 的 应 用 软件 服 
务 , 按 定购 的 服务 多 少 和 时 间 长 短 向 厂商 支付 费用 .并 通过 因特网 获得 厂商 提供 的 服务 。 用 
户 不 用 再 购买 软件 ,而 改 为 向 提供 商 租用 基于 Web 的 软件 来 管理 企业 经 营 活动 , 且 无 须 对 
软件 进行 维护 ,服务 提供 商会 全 权 管 理 和 维护 软件 .软件 厂商 在 向 客户 提供 因特网 应 用 的 同 
时 ,也 提供 软件 的 离线 操作 和 本 地 数据 存储 ,让 用 户 随时 随地 都 可 以 使 用 其 定购 的 软件 和 
服务 。 
在 这 种 模式 下 ,客户 不 再 像 传统 模式 那样 花费 大 量 的 投资 用 于 硬件 .软件 .人 员 , 而 只 需 
要 支出 一 定 的 租赁 服务 费用 ,通过 因特网 便 可 以 享受 到 相应 的 硬件 .软件 和 维护 服务 ,享有 
软件 使 用 权 和 不 断 升 级 ,这 是 网 络 应 用 最 具 效 益 的 营运 模式 。 
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13.1.3 SaaS 与 传统 软件 的 区 别 


SaaS 服务 模式 与 传统 许可 模式 软件 有 很 大 的 不 同 , 它 是 未 来 管理 软件 的 发 展 趋势 。 
SaaS 不 仅 减 少 了 或 取消 了 传统 的 软件 授权 费用 ,而 且 厂 商 将 应 用 软件 部 署 在 统一 的 服务 器 
上 ,免除 了 最 终 用 户 的 服务 器 硬件 、 网 络 安 全 设备 和 软件 升级 维护 的 支出 ,客户 不 需要 除了 
个 人 计算 机 和 因特网 连接 之 外 的 其 他 IT 投资 就 可 以 通过 因特网 获得 所 需要 的 软件 和 服 
务 。 此 外 ,大 量 的 新 技术 ,如 Web Service 提供 了 更 简单 .更 灵活 、 更 实用 的 SaaS, 

SaaS 供应 商 通常 是 按照 客户 所 租用 的 软件 模块 进行 收费 ,因此 用 户 可 以 根据 需求 按 需 
订购 软件 应 用 服务 ,而 且 SaaS 的 供应 商会 负责 系统 的 部 署 \ 升 级 和 维护 。 而 传统 管理 软件 
通常 是 买 家 需要 一 次 支付 一 笔 可 观 的 费用 才能 正式 启动 。 

ERP 这 样 的 企业 应 用 软件 ,软件 的 部 署 和 实施 比 软件 本 身 的 功能 .性 能 更 为 重要 ,万 一 
部 署 失败 , 那 所 有 的 投入 几乎 全 部 白费 ,这 样 的 风险 是 每 个 企业 用 户 都 希望 避免 的 。 通 常 的 
ERP,CRM 项 目的 部 署 周 期 至 少 需要 一 两 年 甚至 更 久 的 时 间 , 而 SaaS 模式 的 软件 项 目 部 署 
最 多 也 不 会 超过 90 天 ,而 且 用 户 无 须 在 软件 许可 证 和 硬件 方面 进行 投资 。 传 统 软 件 在 使 用 
方式 上 受 空间 和 地 点 的 限制 ,必须 在 固定 的 设备 上 使 用 ,而 SaaS 模式 的 软件 项 目 可 以 在 任 
何 可 接 入 因特网 的 地 方 与 时 间 使 用 。 相 对 于 传统 软件 而 言 ,SaaS 模式 在 软件 的 升级 .服务 、 
数据 安全 传输 等 各 个 方面 都 有 很 大 的 优势 。 

最 早 的 SaaS 服务 之 一 当 属 在 线 电 子 邮箱 , 极 大 地 降低 了 个 人 与 企业 使 用 电子 邮件 的 门 
机 ,进而 改变 了 人 与 人 ,企业 与 企业 之 间 的 沟通 方式 。 发 展 至 今 ,SaaS 服务 的 种 类 与 产品 已 
经 非常 丰富 ,面向 个 人 用 户 的 服务 包括 在 线 文档 编辑 、 表 格 制作 ,日 程 表 管理 ,联系 人 管理 
等 ;面向 企业 用 户 的 服务 包括 在 线 存储 管理 ,网 上 会 议 、 项 目 管理 .CRM( 客 户 关系 管理 )、 
ERP( 企 业 资源 管理 )、HRM( 人 力 资源 管理 ) 在线 广告 管理 及 针对 特定 行业 和 领域 的 应 用 
服务 等 。 

与 传统 软件 相 比 ,SaaS 服务 依托 于 软件 和 因特网 ,不 论 从 技术 角度 还 是 商务 角度 都 拥 
有 与 传统 软件 不 同 的 特性 ,表现 以 下 几 方 面 。 

1. 因特网 特性 

一 方面 ,SaaS 服务 通过 因特网 浏览 器 或 Web Services/Web 2. 0 程序 连接 的 形式 为 用 
户 提供 服务 ,使 得 SaaS 应 用 具备 了 典型 的 因特网 技术 特点 ; 另 一 方面 ,由 于 SaaS 极 大 地 缩 
短 了 用 户 与 SaaS 提供 商 之 间 的 时 空 距离 ,从 而 使 得 SaaS 服务 的 营销 、 交 付 与 传统 软件 相 比 
有 着 很 大 的 不 同 。 

2. 多 租户 (Multi-Tenancy) 特 性 

SaaS 服务 通常 基于 一 套 标准 软件 系统 为 成 百 上 千 的 不 同 客户 (又 称 为 租户 ) 提 供 服 务 。 
这 要 求 SaaS 服务 能 够 支持 不 同 租户 之 间 数 据 和 配置 的 隔离 ,从 而 保证 每 个 租户 数据 的 安全 
与 隐私 ,以 及 用 户 对 诸如 界面 .业务 逻辑 .数据 结构 等 的 个 性 化 需求 。 由 于 SaaS 同时 支持 多 
个 租户 ,每 个 租户 又 有 很 多 用 户 , 这 对 支撑 软件 的 基础 设施 平台 的 性 能 、 稳 定性 .扩展 性 提出 
很 大 挑战 。 

3. 服务 特性 

SaaS 使 得 软件 以 因特网 为 载体 的 服务 形式 被 客户 使 用 ,所 以 服务 合约 的 签订 .服务 使 
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用 的 计量 \ 在 线 服 务 质量 的 保证 ,服务 费用 的 收取 等 问题 都 必须 考虑 。 而 这 些 问题 通常 是 传 
统 软 件 没有 考虑 到 的 。 

SaaS 是 通过 因特网 以 服务 形式 交付 和 使 用 软件 的 业务 模式 。 在 SaaS 模式 下 ,软件 使 
用 者 无 须 购 置 额 外 硬件 设备 、 软 件 许可 证 及 安装 和 维护 软件 系统 ,通过 因特网 浏览 器 在 任何 
时 间 、 任 何 地 点 都 可 以 轻松 使 用 软件 并 按照 使 用 量 定期 支付 使 用 费 。 


13.1.4 SaaS 模式 应 用 于 信息 化 优势 


传统 的 信息 化 管理 软件 已 经 不 能 满足 企业 管理 人 员 随 时 随地 的 要 求 ,与 移动 通信 和 帘 
带 互联 的 高 速 发 展 同步 ,移动 商务 才 是 未 来 发 展 的 趋势 。SaaS 模式 的 出 现 使 企业 传统 管 
理 软件 正在 经 历 深刻 的 变革 。SaaS 模式 的 管理 软件 有 许多 区 别 于 传统 管理 软件 的 独特 
优势 有 如 下 几 种 。 

1. SaaS 模式 的 低 成 本 性 

SaaS 企业 要 在 激烈 的 市 场 竞争 中 取胜 ,首先 就 要 控制 好 运营 成 本 ,提高 运营 效率 。 以 
往 ,企业 管理 软件 的 大 额 资金 投入 一 直 是 阻碍 企业 尤其 是 中 小 企业 信息 化 发 展 的 瓶颈 ， 
SaaS 模式 的 出 现 无 疑 使 这 个 问题 迎刃而解 。 

SaaS 模式 实质 属于 IT 外 包 。 企 业 无 须 购买 软件 许可 ,而 是 以 租赁 的 方式 使 用 软件 ,不 
会 占用 过 多 的 营运 资金 ,从 而 缓解 企业 资金 不 足 的 压力 。 企 业 可 以 根据 自身 需求 选择 所 需 
的 应 用 软件 服务 ,并 可 按 月 或 按 年 交付 一 定 的 服务 费用 ,这 样 大 大 降低 了 企业 购买 软件 的 成 
本 和 风险 。 企 业 在 购买 SaaS 软件 后 ,可 以 立刻 注册 开通 。 不 需要 花 很 多 时 间 去 考察 开发 和 
部 署 ,为 企业 降低 了 宝贵 的 时 间 成 本 。 

2. SaaS 模式 的 多 重 租赁 特性 

多 重 租赁 是 指 多 个 企业 将 其 数据 和 业务 流程 托管 存放 在 SaaS 服务 供应 商 的 同一 服务 
器 组 上 ,相当 于 服务 供应 商 将 一 套 在 线 软 件 同时 出 租 给 多 个 企业 ,每 个 企业 只 能 看 到 自己 的 
数据 ,由 服务 供应 商 来 维护 这 些 数据 和 软件 。 

有 些 SaaS 软件 服务 供应 商 采 用 为 单一 企业 设计 的 软件 ,也 就 是 一 对 一 的 软件 交付 模 
式 。 客 户 可 以 要 求 将 软件 安装 到 自己 的 企业 内 部 ,也 可 托管 到 服务 供应 商 那里 。 定 制 能 力 
是 衡量 企业 管理 软件 好 坏 的 重要 指标 之 一 ,这 也 是 为 什么 有 些 软件 开发 商 在 Saas 早期 坚持 
采用 单 重 租赁 的 软件 设计 方案 。 多 重 租赁 大 大 增强 了 软件 的 可 靠 性 ,降低 了 维护 和 升级 
成 本 。 

3. SaaS 模式 灵活 的 自 定制 服务 

自 定制 功能 是 SaaS 软件 的 另 一 个 核心 技术 ,供应 商 的 产品 已 经 将 自 定制 作 得 相当 完 
美 。 企 业 可 以 根据 公司 的 业务 流程 自 定义 字段 .菜单 .报表 ,公式 ,权限 、 视 图、 统计 图 ,工作 
流 和 审批 流 等 ,并 可 以 设 定 多 种 逻辑 关系 进行 数据 筛选 ,便于 查询 所 需要 的 详细 信息 ,做 到 
SaaS 软件 的 量 身 定制 ,而 且 不 需要 操作 人 员 具 有 编程 知识 。 

企业 可 以 根据 需要 购买 所 需 服务 .这 就 意味 着 企业 可 以 根据 自身 发 展 模式 购买 相应 软 
件 。 企 业 规模 扩大 时 只 要 开启 新 的 连接 ,无 须 购置 新 的 基础 设施 和 资源 ,而 一 旦 企业 规模 缩 
小 ,只 要 关闭 相应 连接 即 可 ,这 样 企业 可 以 避免 被 过 多 的 基础 设施 和 资源 所 牵 累 。 

自 定制 服务 的 技术 是 通过 在 软件 架构 中 增加 一 个 数据 库 扩 展 层 、 表 现 层 和 一 套 相关 开 
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发 工具 来 实现 。 目 前 世界 上 只 有 几 家 服务 供应 商 拥有 此 项 核心 技术 ,其 中 包括 中 国 的 八 百 
客 公 司 。 

4. SaaS 软件 的 可 扩展 性 

与 传统 企业 管理 软件 相 比 ,SaaS 软件 的 可 扩展 性 更 强大 。 在 传统 管理 软件 模式 下 ,如 
果 软 件 的 功能 需要 改变 ,那么 相应 的 代码 也 需要 重新 编写 ,或 者 是 预 留 出 一 个 编程 接口 让 用 
户 可 以 进行 二 次 开发 。 

在 SaaS 模式 下 ,用 户 可 以 通过 输入 新 的 参数 变量 ,或 者 制定 一 些 数 据 关 联 规则 来 开启 
一 种 新 的 应 用 。 这 种 模式 也 被 称 为 “参数 应 用 ”, 而 灵活 性 更 强 的 方式 是 自 定制 控件 ,用 户 可 
以 在 SaaS 软件 中 插入 代码 实现 功能 扩展 。 这 样 还 能 够 大 大 减轻 企业 内 部 IT 人 员 的 工作 
量 , 有 助 于 加 快 实施 企业 的 解决 方案 。 

5. SaaS 软件 提供 在 线 开发 平台 

在 线 开 发 平台 技术 是 自 定制 技术 的 自然 延伸 。 传 统管 理 软件 的 产业 链 是 由 操作 系统 供 
应 商 、 编 程 工具 供应 商 和 应 用 软件 开发 商 构成 ,而 在 线 开 发 平台 提供 了 一 个 基于 因特网 的 
OS 和 开发 工具 。 

在 线 开 发 平台 通常 集成 在 SaaS 软件 中 ,最 高 权限 用 户 在 用 自己 的 账号 登录 到 系统 后 会 
发 现 一 些 在 线 开发 工具 。 例 如 “新 建 选项 卡 ” 等 选项 ,每 个 选项 卡 可 以 有 不 同 的 功能 。 多 个 
选项 卡 可 以 完成 一 项 企业 管理 功能 ,用 户 可 以 将 这 些 新 设计 的 选项 卡 定义 为 一 个 “应 用 程 
序 ”, 自 定义 一 个 名 字 。 然 后 可 以 将 这 些 “ 应 用 程序 ”共享 或 销售 给 其 他 在 此 SaaS 平台 上 的 
企业 用 户 , 让 其 他 企业 也 可 以 使 用 这 些 新 选项 卡 的 功能 。 

6. SaaS 软件 的 跨 平台 性 

SaaS 提供 跨 平台 操作 使 用 。 对 于 使 用 不 同 操作 平台 的 用 户 来 说 ,不 需要 再 担心 使 用 的 
是 Windows 还 是 Linux 操作 平台 ,通常 只 要 用 浏览 器 就 可 以 连接 到 S to S 提供 商 的 托管 平 
台 。 用 户 只 要 能 够 连接 网 络 ,就 能 随处 使 用 所 需要 的 服务 。 另 外 ,SaaS 基于 WAP (无 线 应 
用 协议 ) 的 应 用 ,可 以 为 用 户 提供 更 为 贴身 的 服务 。 

7. SaaS 软件 的 自由 交互 性 

管理 者 通过 平台 可 在 任何 地 方 、 任 何 时间 掌 握 企业 最 新 的 业务 数据 ,同时 利用 平台 的 交 
互 功 能 ,管理 者 可 发 布 管理 指令 、 进 行 审核 签字 、 实 现 有 效 的 决策 和 管理 控制 。 随 着 对 外 交 
往 的 日 益 广泛 ,管理 者 之 间 可 以 通过 平台 实现 信息 的 交互 ,这 种 信息 的 交互 不 局 限于 简单 的 
文字 、 表 单 , 甚 至 可 以 是 声音 或 者 图 片 。 


13.1.5 SaaS 成 熟 度 模型 

















1. Levell: 定制 开发 


这 是 最 初级 的 成 熟 度 模 型 .其 定义 为 Ad Hoc/Custom, 即 特定 的 /定制 的 。 对 于 最 初级 
的 成 熟 度 模型 ,技术 架构 上 跟 传统 的 项 目 型 软件 开发 或 者 软件 外 包 没 有 什么 区 别 , 按 照 客户 
的 需求 来 定制 一 个 版 本 ,每 个 客户 的 软件 都 有 一 份 独立 的 代码 。 不 同 的 客户 软件 之 间 只 可 
以 共享 和 重用 少量 的 可 重用 组 件 、 库 及 开发 人 员 的 经 验 。 最 初级 的 SaaS 应 用 成 熟 度 模型 与 
传统 模式 的 最 大 差别 在 于 商业 模式 , 即 软 硬件 及 相应 的 维护 职责 由 SaaS 服务 商 负责 ,而 软 
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件 使 用 者 只 需 按 照 时 间 、 用 户 数 、 空 间 等 支付 软件 租赁 使 用 费用 即 可 。 

2. Level2: 可 配置 

第 二 级 成 熟 度 模型 相对 于 最 初级 的 成 熟 度 模型 增加 了 可 配置 性 ,可 以 通过 不 同 的 配置 
来 满足 不 同 客 户 的 需求 ,而 不 需要 为 每 个 客户 进行 特定 定制 ,以 降低 定制 开发 的 成 本 。 但 在 
第 二 级 成 熟 度 模型 中 ,软件 的 部 署 架构 没有 发 生 太 大 的 变化 ,依然 是 为 每 个 客户 独立 部 署 一 
个 运行 实例 。 只 是 每 个 运行 实例 运行 的 是 同一 个 代码 ,通过 配置 的 不 同 来 满足 不 同 客户 的 
个 性 化 需求 。 

3. Level3: 高 性 能 的 多 租户 架构 

在 应 用 架构 上 ,第 一 级 和 第 二 级 的 成 熟 度 模 型 与 传统 软件 没有 多 大 差别 ,只 是 在 商业 模 
式 上 符合 SaaS 的 定义 。 多 租户 单 实例 的 应 用 架构 才 是 通常 真正 意义 上 的 SaaS 应 用 架构 ， 
即 Multi-Tenant 架构 。 多 租户 单 实例 的 应 用 架构 可 以 有 效 地 降低 Saas 应 用 的 硬件 及 运行 
维护 成 本 ,最 大 化 地 发 挥 Saas 应 用 的 规模 效应 。 要 实现 Multi-Tenant 架构 的 关键 是 通过 
一 定 的 策略 来 保证 不 同 租户 间 的 数据 隔离 ,确保 不 同 租户 既 能 共享 同一 个 应 用 的 运行 实例 ， 
又 能 为 用 户 提供 独立 的 应 用 体验 和 数据 空间 。 

4. Level4: 可 伸缩 性 的 多 租户 架构 

在 实现 了 多 租户 单 实例 的 应 用 架构 之 后 , 随 着 租户 数量 的 逐渐 增加 ,集中 式 的 数据 库 性 
能 就 成 为 整个 SaaS 应 用 的 性 能 瓶颈 。 因 此 ,在 用 户 数 大 量 增加 的 情况 下 ,无须 更 改 应 用 架 
构 , 而 仅 需 简单 地 增加 硬件 设备 的 数量 就 可 以 支持 应 用 规模 的 增长 。 不 管用 户 多 少 , 都 能 像 
单 用 户 一 样 方便 地 实施 应 用 修改 。 这 就 是 第 四 级 也 是 最 高 级 别 的 SaaS 成 熟 度 模型 所 要 致 
力 解决 的 问题 。 












































13.2 模式 及 实现 


13.2.1 SaaS 商务 模式 


SaaS 是 一 个 新 的 业务 模式 ,在 这 种 模式 下 软件 市 场 将 会 转变 ,可 通过 下 面 两 个 方面 进 
行 描述 。 

1. 从 客户 角度 考虑 

软件 所 有 权 发 生 改变 ; 将 技术 基础 设施 和 管理 等 方面 (如 硬件 与 专业 服务 ) 的 责任 从 客 
户 重新 分 配给 供应 商 ; 通过 专业 化 和 规模 经 济 降低 提供 软件 服务 的 成 本 ; 降低 软件 销售 的 
最 低 成 本 ,针对 小 型 企业 的 长 尾市 场 做 工作 。 

(1) IT 投入 发 生 转移 。 

在 以 传统 软件 方式 构建 的 IT 环境 中 ,大 部 分 预算 花费 在 硬件 和 专业 服务 上 ,软件 预算 
只 占 较 小 份额 。 在 采用 SaaS 模式 的 环境 中 ,SaaS 提供 商 在 自己 的 中 央 服 务 器 上 存储 重要 
的 应 用 和 相关 数据 .并 拥有 专业 的 支持 人 员 来 维护 软 硬 件 , 这 使 得 企业 客户 不 必 购 买 和 维护 
服务 器 硬件 ,也 不 必 为 主机 上 运行 的 软件 提供 支持 。 基 于 Web 的 应 用 对 客户 端的 性 能 要 求 
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要 低 于 本 地 安装 的 应 用 ,这 样 在 SaaS 模式 下 大 部 分 IT 预算 能 用 于 软件 。 

(2) 规模 经 济 产生 边际 成 本 递减 。 

SaaS 模式 比 传统 模式 更 节约 成 本 。 对 于 可 扩展 性 较 强 的 SaaS 应 用 , 随 着 客户 的 增多 ， 
每 个 客户 的 运营 成 本 会 不 断 降低 。 当 客户 达到 一 定 的 规模 ,提供 商 投 入 的 硬件 和 专业 服务 
成 本 可 以 与 营业 收入 达到 平衡 。 在 此 之 后 , 随 着 规模 的 增 大 ,提供 商 的 销售 成 本 不 受 影响 ， 
利润 开始 增长 。 

总 体 来 讲 ,SaaS 为 客户 带 来 如 下 价值 : 

D 服务 的 收费 方式 风险 小 ,灵活 选择 模块 ,备份 ,维护 ,安全 ,升级 。 

O 让 客户 更 专注 核心 业务 ,不 需要 额外 增加 专业 的 IT 人 员 。 

@ 灵活 启用 和 暂停 ,随时 随地 都 可 使 用 。 

@ 按 需 定购 ,选择 更 加 自由 。 

© 产品 更 新 速度 加 快 。 

© 市 场 空间 增 大 。 

@ 实现 年 息 式 的 循环 收入 模式 。 

@ 大 大 降低 客户 的 总 体 拥有 成 本 ,有 效 降低 营销 成 本 。 

© 准 面对面 使 用 指导 。 

D 在 全 球 各 地 ,7X 24 小 时 全 天 候 网 络 服务 。 

2. 从 ISV 角度 考虑 

(1) 能 够 覆盖 中 小 企业 信息 化 市 场 。 

在 信息 化 发 展 的 今天 ,软件 市 场面 临 这 样 的 境况 , 即 中 小 型 企业 对 信息 化 的 需求 与 大 型 
企业 基本 相同 ,但 却 难以 承担 软件 的 费用 。 符 合 由 美国 人 克 里 斯 。 安 德 森 提出 的 长 尾 理 
论 一 一 当 商品 储存 流通 展示 的 场地 和 渠道 足够 宽广 ,商品 生产 成 本 急剧 下 降 以 至 于 个 人 都 
可 以 进行 生产 ,并且 商品 的 销售 成 本 急剧 降低 时 ,几乎 任何 以 前 看 似 需 求 极 低 的 产品 ,只 要 
有 卖 ,都 会 有 人 买 。 这 些 需 求 和 销量 不 高 的 产品 所 占据 的 共同 市 场 份额 可 以 和 主流 产品 的 
市 场 份 额 相 比 ,甚至 更 大 。 在 这 样 的 市 场 环 境 下 ,SaaS 供应 商 可 消除 维护 成 本 ,利用 规模 经 
济 效 益 将 客户 的 硬件 和 服务 需求 加 以 整合 ,这 样 就 能 提供 比 传统 厂商 价格 低 得 多 的 解决 方 
案 , 这 不 仅 减轻 了 财务 成 本 ,而 且 大 幅 减 省 了 客户 增加 IT 基础 设施 建设 的 需要 。 因 此 ， 
SaaS 供应 商 能 面向 全 新 的 客户 群 开展 市 场 工 作 , 而 这 部 分 客户 是 传统 解决 方案 供应 商 所 无 
力 顾 及 的 。 

(2) 能 够 控制 盗版 问题 。 

传统 的 管理 软件 备份 成 本 几乎 可 以 忽略 不 计 , 很 难 控制 盗版 。 而 SaaS 模式 的 服务 程序 
全 都 放 在 服务 商 的 服务 器 端 , 用 户 认证 .软件 升 级 和 维护 的 权力 都 掌握 在 SaaS 提供 商 手 中 ， 
很 好 地 控制 了 盗版 问题 。 

(3) 可 预见 的 收入 来 源 。 

在 传统 的 许可 模式 下 .收入 以 一 种 大 型 的 .循环 的 模式 来 达到 平衡 。 每 一 轮 的 产品 升级 
都 伴随 着 不 菲 的 研发 投入 和 后 续 的 市 场 推广 费用 , 随 着 市 场 趋 于 饱和 后 ,产品 生命 周期 结 
东 , 新 产品 的 研发 再 开启 一 轮 新 的 循环 。 
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在 SaaS 模式 中 ,客户 以 月 为 基础 来 为 使 用 软件 付费 ,收入 流 更 加 增 量 化 。 从 长 远 来 看 ， 
SaaS 的 收入 会 远 远 超出 许可 模式 ,并 且 它 会 提供 更 多 可 预见 的 现金 流 。 


13.2.2 SaaS 平台 架构 


基于 SaaS 模式 的 企业 信息 化 服务 平台 通过 Internet 向 企业 用 户 提 供 软件 及 信息 化 服 
务 , 用 户 无 须 再 购买 软件 系统 和 昂贵 的 硬件 设备 , 转 而 采用 基于 Web 因特网 的 租用 方式 引 
入 软件 系统 。 

服务 提供 商 必须 通过 有 效 的 技术 措施 和 管理 机 制 , 以 确保 每 家 企业 数据 的 安全 性 和 保 
密 性 。 在 保证 安全 的 前 提 下 ,还 要 保证 平台 的 先进 性 、 实 用 性 。 为 了 便于 承载 更 多 的 应 用 服 
务 , 还 需 保证 平台 的 标准 化 、 开 放 性 、 兼 容 性 、 整 体 性 、 共 享 性 和 可 扩展 性 。 为 了 保证 平台 的 
使 用 效果 ,提供 良好 的 客户 体验 ,必须 保证 良好 的 可 靠 性 和 实时 性 。 同 时 平台 应 该 是 可 管理 
和 便于 维护 的 ,通过 大 规模 的 租用 ,先进 的 技术 保证 ,降低 成 本 实现 使 用 的 经 济 性 。 基 于 
SaaS 模式 的 企业 信息 化 平台 框架 如 图 13-1 所 示 , 主 要 包含 4 大 部 分 ,分 别 是 基础 设施 、 运 行 
时 支持 设施 、 核 心 组 件 和 业务 服务 应 用 。 


企业 用 户 个 人 用 户 
SaaS 平 台 统一 门户 
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图 13-1 平台 总 体 框架 图 


基础 设施 包含 了 SaaS 平台 的 硬件 设施 (如 服务 器 网络 建设 等 ) 和 基本 的 操作 系统 等 
IT 系统 的 基础 环境 ;运行 时 支持 设施 包括 运行 基于 Java EE 和 . net 软件 架构 的 应 用 系统 
所 必需 的 中 间 件 和 数据 库 等 支撑 软件 ;核心 组 件 主要 包括 Saas 中 间 件 、 基 于 SOA 的 业务 流 
程 整合 套件 和 统一 用 户 管理 系统 ,这 些 软件 系统 提供 了 实现 SaaS 模式 和 基于 SOA 的 业务 
流程 整合 的 先决 条 件 ;业务 服务 主要 包含 专 有 业务 系统 、 通 用 服务 和 业务 应 用 系统 ,为 用 户 
提供 了 全 方位 的 应 用 服务 。 

SaaS 平 台 首先 建设 面向 数据 中 心 标准 的 软 硬 件 基 础 设施 ,为 任何 软件 系统 的 运行 提供 
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了 基础 的 保障 。 高 性 能 操作 系统 安装 在 必需 的 集群 环境 下 ,为 整个 数据 中 心 提供 高 性 能 的 
虚拟 化 技术 保障 。SaaS 平台 是 一 个 非常 复杂 的 软件 应 用 承载 环境 ,不 可 能 为 每 个 应 用 设立 
独立 的 运行 环境 、 数 据 支持 环境 和 安全 支持 环境 ,共享 和 分 配 数据 中 心 资源 才 是 高 效 运营 
SaaS 平台 的 基础 。 虚 拟 化 技术 既 提供 了 这 样 的 资源 虚拟 能 力 ,能 够 将 数据 中 心 集群 中 的 资 
源 综合 分 配给 每 个 应 用 ,也 能 够 将 数据 中 心 集群 中 的 独立 资源 再 细 化 分 解 为 计算 网 格 节点 ， 
细 化 控制 每 个 应 用 利用 的 资源 数量 与 质量 。 建 成 具有 数据 中 心 承 载 能 力 的 软 硬 件 基础 环境 
Ji, SaaS 平台 上 会 部 署 一 层 中 间 件 .数据 库 服 务 和 其 他 必要 的 支持 软件 系统 。 硬 件 和 操作 
系统 的 资源 并 不 能 直接 为 最 终 应 用 所 使 用 ,通过 中 间 件 、 数 据 库 服务 和 其 他 必要 的 支持 软件 
系统 ,存在 于 SaaS 平台 数据 中 心 的 计算 和 存储 能 力 才能 够 真正 地 发 挥 作用 。 不 论 是 基于 
Java EE 还 是 . Net framework 创建 的 ( 超 ) 企 业 级 应 用 ,都 能 够 稳定 高 效 地 运行 在 这 些 高 性 
能 的 服务 软件 之 上 。 

整个 SaaS 平台 协同 运行 的 核心 是 多 租户 管理 和 用 户 资源 整合 。 基 于 自主 知识 产权 的 
统一 用 户 授权 管理 系统 与 单 点 登录 系统 (UUM/ SSO) 很 好 地 满足 了 SaaS 平台 在 这 方面 的 
需求 。 依 照 UUM/SSO 所 提供 的 标准 接口 ,各 类 应 用 在 整合 用 户 的 角度 能 够 无 颖 连接 到 
SaaS 平台 上 , 当 最 终 用 户 登 录 SaaS 平台 的 服务 门户 后 ,整个 使 用 过 程 就 好 像 是 统一 操作 每 
个 软件 系统 的 不 同 模块 ,所 有 各 系统 的 用 户 登 录 和 授权 功能 都 被 整合 在 一 起 ,给 用 户 最 佳 的 
使 用 体验 。 同 时 ,由 于 用 户 整合 工作 在 所 有 应 用 服务 登录 平台 前 就 已 经 完成 ,这 就 为 日 后 的 
应 用 系统 业务 流程 整合 提供 了 良好 的 基础 ,为 深层 数据 挖掘 与 数据 利用 提供 了 重要 的 前 提 。 
在 基于 UUM/SSO 的 支持 下 ,SaaS 平台 运 营 收费 管理 系统 提供 了 平台 完整 的 运营 功能 , 保 
障 整 个 SaaS 平台 顺利 安全 稳定 运行 ,并 具有 开放 的 扩展 能 力 , 保 证 SaaS 平 台 在 日 后 的 发 展 
中 不 断 完善 和 进步 , 走 在 业界 的 前 沿 。 

基于 上 述 所 有 SaaS 平台 自身 建设 的 基础 ,SaaS 平台 将 为 最 终 用 户 提供 高 效 ,稳定 、 安 
全 ,可 定制 .可 扩展 的 现代 企业 应 用 服务 。 不 管 是 通用 的 因特网 服务 还 是 满足 企业 业务 需求 
的 专 有 应 用 ,SaaS 平台 运营 商都 会 依照 客户 需求 选择 .采购 .开发 和 整合 专业 的 应 用 系统 为 
用 户 提供 最 优质 的 服务 。 


13.2.3 SaaS 服务 平台 的 主要 功能 


1. SaaS 服务 平台 统一 门户 系统 

SaaS 门户 网 站 用 来 全 方位 展示 SaaS 运营 服务 ,建立 品牌 形象 .营销 渠道 与 用 户 认可 
度 , 利 用 因特网 这 一 现代 化 的 信息 和 媒体 平台 ,提高 软件 应 用 服务 的 覆盖 范围 与 推广 速度 ， 
这 是 通用 SaaS 服务 推广 的 重要 手段 之 一 。SaaS 作为 基于 因特网 的 软件 增值 服务 ,通过 因 
特 网 推广 产品 ,拓展 渠道 。 

SaaS 统一 门户 应 用 系统 是 依托 SaaS 平台 完备 网 络 基础 设施 ,存储 、 安 全 及 多 个 业务 领 
域 服务 系统 ,构建 统一 SaaS 门户 ,实现 客户 在 线 模块 化 的 快速 订购 组 件 、 面 向 企业 服务 ( 行 
业 专 有 )、 服 务 营销 推广 企业 培训 及 体验 中 心 等 多 种 服务 展现 方式 。 

(1) 易 用 性 。 方 便 上 网 客户 浏览 和 操作 ,最 大 限度 地 减轻 后 台 管 理 人 员 的 负担 ,做 到 部 
分 业务 的 自动 化 处 理 。 

(2) 业务 完整 性 。 对 于 业务 进行 中 的 特殊 情况 能 够 做 出 及 时 、 正 确 的 响应 ,保证 业务 数 
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据 的 完整 性 。 

(3) 业务 规范 化 。 在 系统 设计 的 同时 ,也 为 将 来 的 业务 流程 制定 了 较为 完善 的 规范 , 具 
有 较 强 的 实际 操作 性 。 

(4) 可 扩展 性 。 系 统 设计 要 考虑 到 业务 未 来 发 展 的 需要 ,要 尽 可 能 设计 的 简明 ,各 个 功 
能 模块 间 的 耦合 度 小 ,便于 系统 今后 的 扩展 。 

2. SaaS 运营 管理 平台 系统 

SaaS 运营 管理 平台 从 服务 参与 实体 上 线 、 服 务 运营 生命 周期 .服务 运营 分 析 及 可 视 化 
这 三 个 重要 的 维度 为 服务 运营 提供 强 有 力 的 支持 。SaaS 运营 平台 立足 于 服务 运营 管理 平 
台 的 管理 元 模型 ,该 模型 需 基 于 实际 的 服务 运营 经 验 抽象 提升 得 到 ,为 实现 灵活 的 运营 功能 
(如 分 销 渠道 管理 .多 模式 服务 订阅 、 统 一 账户 管理 等 ) 提 供 有 力 支 撑 。SaaS 运营 管理 平台 
的 着 眼 点 在 于 端 到 端的 服务 生命 周期 管理 ,通过 规范 的 服务 运营 流程 提高 服务 运营 的 质量 
和 效率 ,并 且 该 平台 针对 SaaS 运营 的 分 析 模 型 和 功能 高 效 地 综合 运营 相关 信息 并 及 时 清晰 
地 展示 给 相关 人 员 。 

SaaS 运营 管理 平台 克服 了 传统 软件 服务 运营 流程 不 规范 ,效能 低下 ,运营 状况 无 法 及 
时 获取 ,客户 体验 不 一 致 等 问题 ,从 而 帮助 软件 服务 运营 从 小 规模 、 人 工 化 的 方式 向 大 规模 、 
高 效率 , 快 节奏 运营 迈进 。 

SaaS 运营 管理 平台 系统 是 SaaS 服务 平台 的 核心 系统 ,承担 着 SaaS 服务 平台 的 计 费 和 
支付 、 统 一 用 户 管理 . 单 点 登录 ,应 用 服务 的 管理 及 各 种 统计 报表 数据 的 管理 等 功能 。 其 中 
在 总 体 技术 架构 中 ,统一 用 户 管理 系统 又 作为 运营 管理 平台 的 核心 ,将 门户 .应 用 服务 .底层 
支撑 平台 有 机 地 集成 到 一 起 。 

SasS 服务 平台 提供 的 应 用 可 以 分 为 新 开发 应 用 系统 、 可 改造 的 应 用 系统 、 无 须 改造 的 
应 用 系统 三 类 ,如 图 13-2 所 示 。 
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新 开发 应 用 系统 没有 认证 和 授权 机 制 , 数 据 库 中 只 存储 与 具体 业务 相关 信息 ;可 改造 的 
应 用 系统 本 身 己 经 具有 认证 和 授权 机 制 , 可 以 通过 数据 同步 和 认证 机 制 改造 与 单 点 登录 系 
统 集成 ;无 须 改造 的 应 用 系统 由 于 系统 改造 工作 难度 比较 大 ,只 需要 把 统一 用 户 授 权 管 理 系 
统 的 用 户 和 应 用 系统 的 用 户 进行 映射 ,就 可 以 完成 认证 集成 。 

一 般 的 应 用 系统 都 有 自己 的 授权 体系 ,并 且 授 权 的 方式 也 不 太一 样 , 同 时 授权 机 制 与 业 
务 紧 密 联 系 , 要 把 授权 独立 拆 分 出 来 工作 量 比较 大 ,需要 对 系统 进行 大 量 改造 。 考 虑 到 现存 
应 用 授权 的 现状 ,统一 用 户 授权 管理 系统 对 不 同 的 应 用 进行 不 同 粒度 的 授权 。 新 开发 的 应 
用 系统 可 以 不 需要 关心 授权 机 制 , 只 需要 开发 业务 即 可 ,统一 用 户 授权 管理 系统 负责 应 用 系 
HER ACER .资源 管 理 ( 包 含 页 面 、 菜 单 、 按 钮 .模块 .数据 等 ) ,为 应 用 系统 合法 用 户 
提供 合法 授权 的 权限 (授权 的 资源 ) 信 息 。 统 一 用 户 授权 管理 系统 提供 标准 的 认证 接口 、 
授权 接口 ,用 户 同步 接口 ,可 以 做 到 应 用 系统 与 统一 用 户 授权 管理 系统 的 无 颖 集成 ,达到 
完美 的 用 户 体验 。 对 于 已 经 存在 的 系统 ,如 果 可 以 进行 升级 改造 ,完全 可 以 按照 标准 的 
接口 .规范 进行 开发 。 如 果 改 造 难度 比较 大 或 者 无 法 改造 ,可 以 采用 以 下 两 种 方式 来 
集成 : 

(1) 采用 统一 身份 认证 ,授权 分 布 管理 的 方式 。 也 就 是 应 用 系统 身份 认证 调用 统一 用 
户 和 授权 管理 系统 提供 的 身份 认证 接口 ,授权 等 操作 则 由 各 应 用 系统 完成 。 这 种 方式 既 可 
以 保证 用 户 的 统一 身份 认证 ,又 可 以 降低 应 用 系统 整合 的 复杂 度 ,推荐 采用 。 

(2) 采用 用 户 身 份 映射 的 方式 。 也 就 是 应 用 系统 基本 不 需要 做 改动 ,在 统一 用 户 和 授 
权 管 理 系 统 中 把 统一 的 用 户 身 份 和 应 用 系统 的 用 户 身份 进行 映射 ,进而 完成 用 户 身 份 的 统 
一 性 。 这 种 方式 主要 针对 一 些 已 经 存在 的 旧 应 用 系统 ,并 且 无 法 改造 ,可 以 采用 用 户 映 射 的 
方式 进行 身份 认证 的 整合 集成 。 

以 上 两 种 方式 和 完全 按照 系统 标准 接口 开发 的 应 用 区 别 在 对 于 应 用 系统 的 权限 管理 粒 
度 不 同 。 新 开发 应 用 系统 集成 度 比 较 高 ,统一 授权 的 粒度 比较 细 , 可 以 控制 到 应 用 系统 的 具 
体 资源 。 第 三 方 应 用 和 现存 应 用 二 次 开发 难度 比较 大 ,只 需要 控制 到 应 用 系统 层面 , 即 用 户 
是 否 可 以 访问 应 用 系统 ,应 用 系统 具体 的 权限 控制 由 应 用 系统 自行 管理 和 控制 。 

3. SaaS 服务 平台 应 用 服务 系统 

SaaS 服务 平台 的 特色 是 可 以 通过 因特网 提供 丰富 多 样 的 企业 信息 化 应 用 服务 ,因此 平 
台 对 各 种 企业 信息 化 应 用 需要 提供 一 种 集成 和 部 署 环境 及 统一 部 署 接口 ,以 便 为 不 同 的 信 
息 化 服务 整合 葛 定 基础 。 根 据 信息 化 产品 应 用 的 不 同 ,可 以 将 应 用 服务 分 为 4 大 类 : 

(1) 通用 型 服务 ; 企业 邮箱 、 网 络 传真 杀毒 类 产品 、 视 频 会 议 等 。 

(2) 管理 型 服务 ; 财务 类 应 用 、 在 线 进 销 存 、 客 户 关系 管理 .ERP、 办 公 OA 协同 等 。 

(3) 专 有 服务 : 定制 不 同行 业 信息 化 整体 解决 方案 .大 中 型 企业 供应 链 系统 。 

(4) 设计 类 应 用 服务 : AutoCAD,CA XA 系列 .ANSYS. DESIGNSPACE 等 各 种 设计 
软件 授权 租用 。 

一 般 情况 下 ,新 引入 的 应 用 服务 需要 同 SaaS 平台 进行 集成 ,都 需要 按照 平台 接口 规范 
进行 一 定 的 改造 。 企 业 邮 箱 与 Saas 平台 集成 如 图 13-3 所 示 。 

在 企业 邮箱 系统 集成 到 SaaS 平台 后 ,企业 邮箱 系统 的 用 户 资源 将 和 SaaS 平台 自身 的 
用 户 资源 做 自动 化 的 同步 。 企 业 邮 箱 系 统 的 界面 将 通过 单 点 登录 系统 与 SaaS 平台 门户 有 
机 整合 ,用 户 只 要 通过 一 次 登录 SaaS 门户 .就 可 以 直接 访问 账号 对 应 的 企业 邮箱 。 
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图 13-3 企业 邮箱 与 SaaS 平 台 集 成 


4. SaaS 服务 平台 的 安全 保障 体系 

从 SaaS 平台 的 安全 需求 入 手 ,依据 面向 服务 的 集成 体系 ,设计 ,实施 安 全 防御 和 保护 策 
略 。 如 图 13-4 所 示 ,SaaS 平台 的 安全 保障 架构 由 以 下 安全 体系 构成 。 

CL) IT 基础 设施 安全 体系 。SaaS 平台 的 基础 ,为 了 保障 业务 支撑 体系 和 门户 的 安全 ， 
必须 加 强 物理 网络, 主机 安全 。 

(2) 运营 支撑 安全 体系 。 为 了 保障 应 用 系统 和 网 站 的 安全 ,需要 借助 数字 证 书 进行 强 
身份 认证 ,加 密 、 签 名 等 安全 措施 ,而 以 上 安全 措施 需要 相关 基础 设施 和 技术 进行 支撑 ,如 数 
字 证 书 基础 设施 ,数字 证 书 、 数 据 安 全 传输 等 。 

(3) 业务 支撑 安全 体系 ,包括 信息 传输 的 安全 性 、 保 密 性 、 有 效 性 和 不 可 抵赖 性 ; 户 业务 
数据 的 安全 性 和 可 靠 性 ; 统一 身份 认证 、 安 全 审计 等 。 


13.2.4 SaaS 服务 平台 关键 技术 


1. 单 实例 多 租户 技术 

单 实例 多 租户 模型 可 以 说 是 SaaS 应 用 的 本 质 特点 ,通过 这 样 的 模型 ,供应 商 实现 了 低 
费用 ,规模 效应 的 商业 模式 。 要 求 供应 商 能 够 承担 多 租户 带 来 的 挑战 ,一 方面 是 多 租户 同时 
使 用 时 的 承载 , 另 一 方面 还 必须 满足 多 租户 不 同 的 个 性 化 需求 。 

多 租户 技术 解决 方案 基于 强大 /丰富 的 软件 中 间 件 产品 线 ,提供 了 面向 SaaS 应 用 开发 
人 员 和 平台 运营 商 的 开发 部署、 运行 .管理 多 租户 应 用 的 全 方位 的 组 件 群 ,可 以 提供 高 效 的 
多 租户 资源 共享 和 隔离 机 制 ,从 而 最 大 限度 地 降低 分 摊 在 单个 租户 的 平均 基础 设施 和 管理 
成 本 ; 提供 具备 高 可 扩展 性 的 基础 架构 ,从 而 支持 大 数量 的 租户 ,具备 平台 架构 动态 支持 服 
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务 扩展 ,以 满足 租户 的 增 减 ; 提供 灵活 的 体系 结构 ,从 而 满足 不 同 租户 异 构 的 服务 质量 和 定 
制 化 需求 ;提供 对 复杂 异 构 的 底层 系统 、 应 用 程序 租户 的 统一 监控 和 管理 。 
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图 13-4 SaaS 服务 平台 安全 保障 体系 
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2. 多 租户 数据 隔离 技术 

如 图 13-5 所 示 , 多 租户 数据 管理 在 数据 存储 上 存在 着 三 种 方式 ,分 别 是 独立 数据 库 ; 
共享 数据 库 , 隔 离 数 据 架 构 ; 共享 数据 库 , 共 享 数据 架构 。 
这 三 种 存储 方式 带 来 的 影响 表现 在 数据 的 安全 和 独立 、 可 
扩展 的 数据 模型 和 可 缩放 的 分 区 数据 上 。 

(1) 独立 数据 库 。 每 个 租户 对 应 一 个 单独 的 数据 库 ， 
这 些 数据 在 逻辑 上 彼此 隔离 。 元 数据 将 每 个 数据 库 与 相 
应 的 用 户 关联 ,数据 库 的 安全 机 制 防止 用 户 无 意 或 恶意 存 取 其 他 用 户 的 数据 。 它 的 优势 是 
实现 简单 、. 易 数据 恢复 .更 加 安全 隔离 。 缺 点 则 是 硬件 和 软件 的 投入 相对 较 高 。 这 种 情况 适 
合 于 对 数据 的 安全 和 独立 要 求 较 高 的 大 客户 ,如 银行 .医疗 系统 。 

(2) 共享 数据 库 , 不 共享 架构 。 隔 离 数 据 架 构 就 是 所 有 租户 采用 一 套数 据 库 , 但 是 数据 
分 别 存储 在 不 同 的 数据 表 集 中 .这 样 每 个 租户 就 可 以 设计 不 同 的 数据 模型 。 它 的 优势 在 于 





13-5 多 租户 数据 管理 
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容易 进行 数据 模型 扩展 ,提供 中 等 程度 的 安全 性 。 缺 点 则 是 数据 恢复 困难 。 

(3) 共享 数据 库 , 共 享 架构 。 共 享 数 据 架构 就 是 所 有 租户 使 用 相同 的 数据 表 , 并 存放 在 
同一 个 数据 库 中 。 它 的 优势 是 管理 和 备份 的 成 本 低 , 能 够 最 大 化 利用 每 台数 据 库 服务 器 的 
性 能 。 缺 点 则 是 数据 还 原 困难 ,难于 进行 数据 模型 扩展 。 另 外 所 有 租户 的 数据 放 在 一 个 表 
中 ,数据 量 太 大 ,索引 、 查 询 、 更 新 更 加 复杂 。 

3. SaaS 服务 的 整合 技术 

SaaS 平台 服务 的 重要 对 象 之 一 是 SaaS 软件 开发 商 , 当 SaaS 平台 上 的 服务 日 渐 增加 
时 ,SaaS 服务 提供 商 和 最 终 用 户 就 会 有 对 相关 联 的 SaaS 服务 加 以 集成 或 组 合 的 需求 ,因此 
SaaS 平台 应 当 具 备 软件 服务 整合 功能 ,将 开发 商 开 发 的 SaaS 服务 有 机 、 高 效 的 组 织 , 并 统 
一 运行 在 SaaS 平台 之 上 。 

(1) 良好 的 平台 扩展 性 架构 。 增 加 SaaS 软件 服务 ,不 增加 SaaS 平台 复杂 性 和 运行 
费用 。 

(2) 不 同 服务 集成 。 使 得 服务 提供 商 提 供 的 服务 能 够 与 其 他 服务 方便 地 进行 数据 集 
成 ,与 其 用 户 的 本 地 应 用 方便 地 进行 数据 集成 ,实现 SaaS 和 SaaS 之 间 业 务 数据 的 路 由 , 转 
换 、 合 并 和 同步 。 

(3) 与 已 有 的 系统 兼容 。 提 供 数 据 和 服务 适 配 接口 ,方便 客户 将 已 有 的 数据 和 服务 无 
损 移 植 到 SaaS 平台 中 ,实现 SaaS 和 用 户 本 地 应 用 之 间 业 务 数据 的 平滑 交互 。 

4. 联邦 用 户 管理 

联邦 身份 管理 支持 部 件 是 任何 SaaS 平台 上 的 一 个 基础 部 件 , 如 图 13-6 所 示 , 它 为 SaaS 
客户 提供 了 一 个 集中 平台 来 管理 员工 和 客户 的 身份 信息 。 此 外 , 它 还 为 开发 和 交付 安全 的 
组 合 服务 提供 了 联邦 身份 的 支持 。 
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图 13-6 ”联邦 用 户 管理 逻辑 结构 
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在 一 个 SaaS 平台 上 ,一 个 用 户 很 可 能 是 多 个 SaaS 服务 的 订阅 者 。 为 了 避免 每 个 SaaS 
服务 重复 验证 和 管理 用 户 身份 ,对 于 联邦 身份 的 支持 就 显得 十 分 重要 。 





13.3 Salesforce 云 计算 案例 


Salesforce 是 创建 于 1999 年 3 月 的 一 家 客户 关系 管理 (CRM) 软 件 服务 提供 商 ,可 提供 
随 需 应 用 的 客户 关系 管理 (On-demand CRM) ,允许 客户 与 独立 软件 供应 商定 制 并 整合 其 产 
品 ,同时 建立 他 们 各 自 所 需 的 应 用 软件 。 对 于 用 户 而 言 ,可 以 避免 购买 硬件 ,开发 软件 等 前 
期 投资 及 复杂 的 后 台 管 理 问题 。Salesforce 采用 的 云 计 算 主 要 是 软件 即 服务 这 种 模式 , 即 
通过 Internet 提供 软件 应 用 的 模式 ,服务 提供 商 将 应 用 软件 统一 部 署 在 自己 的 服务 器 上 ,用 
户 无 须 购买 ,构建 和 维护 基础 设施 和 应 用 程序 软件 ,只 需 根据 自己 实际 需求 定购 应 用 软件 服 
务 , 按 定购 的 服务 多 少 和 时 间 长 短 向 服务 商 支 付费 用 。 服 务 提供 商 全 权 管 理 , 维 护 软件 ,让 
用 户 随时 随地 都 可 以 使 用 其 定购 的 软件 和 服务 。 平 台 即 服务 是 另 一 种 SaaS, 这 种 形式 的 云 
计算 把 开发 环境 作为 一 种 服务 来 提供 。 开 发 者 可 以 使 用 中 间 商 的 软 硬 件 设 备 开 发 自己 的 程 
序 并 通过 因特网 供用 户 使 用 。 


13.3.1 Salesforce 云 计 算 产 品 组 成 


Salesforce 经 过 十 年 多 的 发 展 ,在 云 计算 方面 形成 4 大 平台 产品 ,包括 Sales Cloud( 销 
售 云 , 原 有 CRM 产品 的 延伸 )、Service Cloud( 服 务 云 ) Force. corn(CRM 产品 的 附加 应 用 
开发 平台 ) .Chatter 协作 平台 (实时 通信 协作 平台 ) ,它们 都 具备 独特 的 功能 ,各 个 产品 之 下 
的 各 个 组 件 还 可 以 无 颖 整合 ,实现 “ 按 需 使 用 ”, 结 构 如 图 13-7 所 示 。 下 面 对 每 个 产品 的 功 
能 ,特征 进行 简单 介绍 。 
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图 13-7 Salesforce 云 计算 产 品 结构 


1. Sales Cloud 

Sales Cloud 以 Salesforce Automation 为 基础 .推出 了 Sales Cloud 服务 ,该 服务 贯穿 于 
企业 销售 活动 的 各 个 阶段 。 从 前 期 的 机 会 管理 到 后 期 的 统计 分 析 与 市 场 预测 ,应 用 Sales 
Cloud 服务 能 够 起 到 销售 过 程 加 速 和 流水 线 化 的 作用 。 

2. Service Cloud 

Service Cloud 主要 通过 各 种 信息 渠道 (从 呼叫 中 心 、. 客 服 门 户 到 社交 网 站 .即时 通信 ) 
实现 高 效 且 响应 快捷 的 客户 服务 ,是 一 个 现代 化 的 客户 服务 平台 , 它 融 合 众 多 通信 技术 支持 
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各 种 服务 ,包括 呼叫 中 心 ,客户 门户 .社交 功能 (快速 与 Twitter、Facebook 等 社交 网 站 进行 
连接 ,参与 对 公司 .产品 及 服务 的 讨论 ) 知识 管理 (知识 积累 ,共享 与 管理 ) .电子 邮件 .即时 
聊天 (即时 与 客户 、 合 作 伙伴 进行 交流 )、 搜 索 ( 借 助 Google 等 搜索 站 点 共享 知识 和 信息 ) 、 合 
作 伙 伴 服务 (与 合作 伙伴 协作 解决 客户 问题 .共享 知识 )、 客 服 分 析 ( 根 据 客 户 服务 记录 形成 
相关 分 析 报 表 ) 等 模块 。 通 过 这 些 服 务 手段 , Service Cloud 能 够 为 自己 的 用 户 提 供 可 信 的 
服务 渠道 ,这 就 是 “客户 服务 软件 即 服务 ”。 它 以 Web 方式 订购 和 交付 在 线 CRM 软件 ,用 
户 无 须 购买 和 维护 CRM 系统 ,大 大 缩短 了 CRM 系统 的 上 线 时 间 。 
3. Force. com 


Force, com 是 Salesforce CRM 核心 产品 的 附加 应 用 开发 平台 。Force. com 是 一 组 集成 
的 工具 和 应 用 程序 ,ISV(Independent Software Vendors ,独立 软件 开发 商 ) 企 业 的 IT 部 门 
可 以 使 用 它 构 建 任何 业务 应 用 程序 ,并 在 提供 Salesforce CRM 应 用 程序 的 相同 基础 架构 上 
运行 该 业务 应 用 程序 。Force. com 提供 了 一 个 应 用 开发 模型 和 托管 平台 ,借助 这 个 开发 模 
型 ,开发 人 员 可 以 使 用 Apex 开发 语言 访问 Salesforce. com 服务 ,并 将 应 用 自动 托管 到 
Force. com 平台 执行 ,因此 Force. Comss 属于 PaaS 应 用 。Apex 代码 托管 于 Salesforce 的 
Force. com 云 服务 中 ,是 “世界 上 第 一 种 随 需 应 变 的 编程 语言 ”, 运 行 于 Force. com 平台 环境 
中 。 在 语法 方面 ,Apex 与 Java 或 C 语言 类 似 。 

Force, com 平台 自 底 向 上 共 分 为 三 层 : 云 基础 设施 层 , 负 责 平 台 的 底层 计算 、 数 据 库存 
储 、 事 务 处 理 、 系 统 更 新 等 能 力 的 提供 ; 平台 层 ,负责 提供 编程 接口 、 业 务 逻 辑 实现 、 工 作 流 
验证 ,应 用 托管 等 功能 ; 应 用 层 , 实 现 应 用 程序 的 自动 化 .定制 化 ,提供 应 用 呈现 .应 用 交易 
等 服务 。Force. com 的 核心 技术 包括 多 租户 架构 、 元 数据 驱动 开发 模型 Web Service API, 
Apex 编程 语言 ,Visualforce 开发 组 件 、Force Platform Sites, AppExchange 应 用 软件 超 
市 等 。 

利用 Force. com 平台, 企业 不 会 在 IT 系统 日 常 维护 上 浪费 资源 ,从 而 可 以 开始 创建 真 
正 具 有 商业 价值 的 新 的 应 用 程序 ,因此 也 获得 了 巨大 的 成 功 , 并 吸引 了 大 量 的 开发 者 。 

现在 ,Force. com 平台 主要 提供 三 个 版 本 .分别 是 免费 版 .企业 版 和 无 限制 版 。 

4. Chatter 协作 平台 

伴随 着 近 几 年 因特网 社交 网 站 、 即 时 通信 工具 的 普遍 推广 ,人 们 可 以 非常 方便 地 与 亲友 
取得 联系 、 进 行 沟通 ,国外 的 Facebook、Twitter, 国 内 的 人 人 网 .QQ 等 正在 不 断 地 把 社交 信 
息 、 生 活 信息 通过 多 种 渠道 推送 给 我 们 。 而 Salesforce Chatter 开启 了 一 个 全 新 的 企业 实时 
协作 平台 ,用 户 可 以 随时 了 解 其 他 同事 的 工作 进展 .重要 项 目 和 交易 的 状态 ,能 够 在 需要 的 
时 候 更 新 联系 人 、 工 作 组 ,文档 和 应 用 数据 。 同 时 ,Chatter 基于 Force. com 构建 ,因此 所 有 
Salesforce. com 的 用 户 、 合 作 伙伴 和 开发 者 都 能 基于 Chatter 的 协作 能 力 构建 定制 化 应 用 。 
目前 Chatter 仅 有 一 个 版 本 ,付费 用 户 可 以 免费 使 用 ,单独 购买 每 月 15 美元 。 














13.3.2 Salesforce 云 计算 特点 


Salesforce 提供 的 “ 云 服 务 ” 在 不 断 发 展 中 形成 了 一 种 良性 循环 ,各 个 特点 互相 补充 、 相 
辅 相 成 ,为 Salesforce 的 用 户 提供 了 多 种 便利 。 其 云 计算 的 特点 主要 包括 以 下 几 个 方面 。 
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1. 按 需 定制 

以 用 户 为 中 心 ,这 是 Salesforce 云 服务 最 为 突出 的 一 个 优势 ,通过 Force. com 开发 平台 
的 运用 ,用 户 可 以 根据 需要 开发 出 适合 自己 的 应 用 软件 。 这 种 方式 不 仅 通过 软件 功能 的 独 
特性 为 用 户 提供 更 为 专业 和 实用 的 服务 ,在 降低 成 本 方面 也 具有 明显 的 优势 。 信 息 行 业 协 
会 的 一 份 研究 报告 的 数据 显示 , 按 需 部 署 比 安装 软件 要 快 50% 一 90%% , 且 成 本 只 是 安装 软 
件 的 1/10 一 1/5。 同 时 Force. com 平台 可 以 根据 企业 变化 不 断 调整 以 适应 业务 需求 ,使 客 
户 群 始终 使 用 最 新 的 版 本 。 

2. 全 方位 的 整合 

企业 在 运用 Salesforce 时 经 常会 考虑 该 技术 的 运用 是 否 能 够 与 企业 多 年 使 用 的 其 他 系 
统 很 好 地 整合 ,以 充分 发 挥 各 自 的 功能 。 令 人 欣慰 的 是 Salesforce 的 用 户 不 必 担 心 这 个 问 
题 ,因为 对 用 户 来 说 , 既 可 以 使 用 Force. com 平台 提供 的 接口 程序 与 企业 现 有 的 应 用 程序 
或 系统 整合 ,也 可 以 使 用 Salesforce 提供 的 开发 工具 进行 自 定义 整合 。 这 些 整 合 的 方式 简 
单 易 行 , 且 不 会 影响 到 原先 各 个 系统 的 正常 运行 。 

3. 共享 应 用 程序 的 市 场 

Salesforce 公司 为 其 使 用 者 提供 了 一 个 appexchange 目录 ,其 中 储存 了 上 百 个 预先 建立 
的 、 预 先 集成 的 应 用 程序 ,从 经 费 管理 到 采购 招聘 一 应 俱全 ,用 户 可 以 根据 自己 的 需要 将 这 
些 程 序 直 接 安装 到 自己 的 Salesforce 账户 中 ,或 者 根据 需要 对 这 些 应 用 程序 进行 修改 以 适 
应 本 公司 特殊 业务 的 需要 ,同时 可 以 与 其 现 有 的 自 定义 程序 一 起 在 Force. com 平台 运行 。 

Salesforce 公司 的 云 服务 可 以 说 是 非常 全 面 的 。 用 户 通 过 Force. com 平台 不 仅 能 够 自 
主 设计 应 用 程序 以 满足 特殊 需要 ,还 可 以 借鉴 现 有 定制 的 应 用 程序 通过 修改 达到 自用 的 要 
求 ,同时 完善 的 整合 路 径 也 不 会 影响 到 企业 内 部 其 他 系统 的 正常 运行 ,保证 各 个 系统 发 挥 各 
自 的 功能 ,相辅相成 ,共同 为 企业 的 生产 运营 服务 。 


13.4 本 章 小 结 


本 章 介绍 了 云 计算 环境 中 的 SaaS, SaaS 是 指 通过 Internet 提供 软件 的 模式 ,厂商 将 应 
用 软件 统一 部 署 在 自己 的 服务 器 上 ,客户 可 以 根据 自己 的 实际 需求 ,通过 因特网 向 厂商 定购 
所 需 的 应 用 软件 服务 , 按 定 购 的 服务 多 少 和 时 间 长 短 向 厂商 支付 费用 ,并 通过 因特网 获得 厂 
商 提供 的 服务 。 

Salesforce 采用 的 云 计 算 主要 是 软件 即 服务 这 种 模式 , 即 通过 Internet 提供 软件 应 用 的 
模式 ,服务 提供 商 将 应 用 软件 统一 部 署 在 自己 的 服务 器 上 ,用 户 无 须 购买 .构建 和 维护 基础 
设施 和 应 用 程序 软件 ,只 需 根 据 自己 实际 需求 定购 应 用 软件 服务 , 按 定 购 的 服务 多 少 和 时 间 
长 短 向 服务 商 支 付费 用 。 

Salesforce 在 云 计 算 方面 形成 了 4 大 平台 产品 .包括 Sales Cloud( 销 售 云 , 原 有 CRM 产 
品 的 延伸 ) Service Cloud( 服 务 云 )、Force. com(CRM 产品 的 附加 应 用 开发 平台 ) .Chatter 
协作 平台 (实时 通信 协作 平台 ) .它们 都 具备 独特 的 功能 ,各 个 产品 之 下 的 各 个 组 件 还 可 以 无 
缝 整合 ,实现 * 按 需 使 用 ”。 
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14.1 容器 云 服务 


14.1.1 云 平台 架构 层次 


在 云 计算 平台 层次 中 ,IaaS 平台 接管 了 所 有 的 资源 虚拟 化 工作 ,通过 软件 定义 的 方式 
为 云 租户 提供 虚拟 的 计算 、 网 络 和 存储 资源 。PaaS 平台 接管 了 所 有 的 运行 时 环境 和 应 用 支 
撑 工 作 , 云 平台 的 租户 因此 可 以 申请 配额 内 的 计算 单元 而 不 是 虚拟 机 资源 来 运行 自身 的 服 
务 。 当 前 不 少 经 典 PaaS 平 台 已 经 采用 容器 作为 计算 单元 , 蔡 代 那些 仍然 依靠 虚拟 机 支持 
的 PaaS 平台 。 在 这 两 层 的 基础 上 ,用 户 部 署 的 应 用 和 服务 通过 API 响应 的 方式 组 成 系列 
集合 服务 于 最 终 用 户 , 这 就 是 所 谓 的 SaaS。 

经 典 云 平台 中 ,应 用 实例 运行 在 PaaS 平台 所 提供 的 容器 环境 中 ,容器 在 虚拟 机 基础 上 
完成 了 第 二 层次 基础 设施 资源 的 划分 ; 容器 封装 了 应 用 正常 运行 所 需 的 运行 时 环境 和 系统 
依赖 ; 同时 ,容器 也 成 为 租户 调度 应 用 、 构 建 应 用 多 实例 集群 的 最 直接 手段 。 

基于 虚拟 机 运行 的 经 典 PaaS 平台 的 租户 不 能 进入 自己 的 计算 单元 中 ,这 类 PaaS 平台 
就 如 同一 个 黑 盒 ,完全 脱离 租户 的 控制 ,处 于 完全 被 托管 的 状态 。 如 果 一 切 都 有 条 不 率 地 运 
作 ,该 模式 没有 问题 。 

然而 ,一 旦 应 用 运行 过 程 中 有 错误 发 生 , 云 平台 的 PaaS 层 首先 会 删除 故障 实例 ,然后 
立即 在 其 他 位 置 恢复 这 个 实例 。 因 此 ,开发 和 运 维 人 员 失 去 了 往日 对 应 用 及 其 运行 时 环境 
的 完全 掌控 ,再 加 上 经 典 Paas 平台 通常 在 应 用 架构 选择 ,支持 的 软件 环境 服务 等 方面 有 较 
强 限制 。 因 此 在 生产 环境 下 ,部 分 倾向 于 放弃 Paas 层 , 直 接 依靠 运 维 力量 来 分 配 和 调度 虚 
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理 等 。 


14.1.2 容器 云 


云 计算 环境 中 的 CaaS(Container as a Service, 容 器 即 服 务 ) 是 指 将 服务 软件 封装 在 容 
器 中 ,根据 用 户 需 要 提供 灵活 高 效 的 容器 服务 。 

相对 于 传统 IaaS 平 台 ,Docker 容器 启 停 速 度 比 虚拟 机 提高 了 一 个 量 级 ,而 在 资源 利 
用 率 上 容器 独 有 的 高 密度 部 署 能 力也 强 于 普通 IaaS。 更 有 吸引 力 的 是 ,容器 镜像 大 小 仅 
几 十 到 几 百 兆 就 完整 封装 了 响应 的 服务 ,提供 了 一 种 全 新 的 应 用 分 发 方式 ,给 应 用 开发 
者 带 来 了 一 致 性 保证 , 比 动 轰 GB 级 的 虚拟 机 镜像 在 应 用 部 署 和 分 发 上 有 更 加 强大 的 竞 
争 力 。 

相 比 经 典 PaaS 平台 ,Docker 的 出 现 使 得 构造 一 个 对 开发 和 运 维 人 员 更 加 开放 的 容器 
PaaS 云 成 为 可 能 。 基 于 容器 镜像 的 应 用 发 布 流程 不 仅 能 覆盖 整个 应 用 生命 周期 ,还 减少 了 
经 典 PaaS 平台 对 应 用 架构 /支持 的 软件 环境 服务 等 方面 的 诸多 限制 ,将 更 多 控制 力 交 还 给 
开发 和 运 维 人 员 。 不 论处 于 哪 种 层次 的 云 平 台 , 基 于 Docker 的 容器 即 服务 将 大 行 其 道 , 结 


构 如 图 14-1 所 示 。 
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图 14-1 TaaS 向 容器 云 转变 


14.1.3 容器 云 的 特点 


随 着 以 Docker 为 代表 的 容器 技术 在 国内 的 迅速 发 展 , 容 器 云 也 逐渐 流行 ,但 容器 云 
(CaaS) 相 比 传统 的 云 主 机 (laaS) 在 实际 应 用 中 还 存在 着 一 些 区 别 。 

1. 高 密度 ,高 弹性 

现 有 的 云 计算 平台 在 面 对 大 规模 、 高 弹性 计算 的 需求 时 往往 会 遇 到 一 些 瓶颈 : 难以 在 
短 时 间 内 启动 大 规模 计算 资源 来 应 对 高 并 发 的 需求 ; 传统 IaaS 的 弹性 计算 性 价 比 低 , 每 个 
虚拟 机 都 要 消耗 额外 的 系统 资源 。 

由 于 Docker 容器 的 启动 一 般 在 秒 级 实现 ,这 相 比 传统 的 虚拟 机 方式 要 快 得 多 。 另 外 ， 
Docker 对 系统 资源 的 利用 率 很 高 .一 台 主 机 上 可 以 同时 运行 数 千 个 Docker 容器 。 容 器 除 
了 运行 其 中 的 应 用 外 .基本 不 需要 消耗 额外 的 系统 资源 ,使 得 应 用 的 性 能 很 高 ,同时 系统 的 
开销 很 小 。 基 于 虚拟 机 的 技术 决定 了 它 的 启动 速度 分 钟 级 (或 数秒 级 ) ,而 Docker 基于 轻 量 
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级 的 LXC, 它 的 启动 速度 是 毫秒 级 ( 秒 级 ) 的 。 这 就 使 得 容器 云 具 备 高 密度 、 高 弹性 的 特性 ， 
在 面 对 突 发 访问 量 时 也 能 轻松 应 对 。 另 外 , 它 通 过 提升 应 用 对 系统 资源 的 利用 率 , 使 得 相 比 
虚拟 机 的 性 价 比 大 大 提高 了 。 

2. FEAL laas 的 灵活 和 Paas 的 便利 

基于 Docker 的 容器 云 是 一 个 用 于 开发 .交付 和 运行 应 用 的 平台 ,Docker 设计 用 来 更 快 
的 交付 应 用 程序 。Docker 可 以 将 用 户 的 应 用 程序 和 基础 设施 层 隔 离 , 并 且 还 可 以 将 基础 设 
施 当 作 程 序 一 样 进行 管理 。Docker 可 以 实现 更 快 地 打包 代码 ,测试 及 部 署 ,并 且 大 大 缩短 
从 开发 到 运行 上 线 的 周期 。 容 器 云 的 本 质 是 一 个 轻 量 级 的 容器 虚拟 化 平台 ,以 及 一 套 标准 
的 开发 ,构建 .部 署 . 运 行 的 流程 ,并 且 可 以 集成 各 类 工具 ,比如 持续 集成 ,数据 库 与 缓存 ,大 
数据 等 ,以 及 一 些 PaaS 类 的 服务 。 容 器 云 在 计算 资源 调度 上 具备 IaaS 的 灵活 性 ,以 及 
PaaS 的 便利 ,弹性 伸缩 ,日 志 监 控 , 滚 动 升级 ,持续 集成 /部 署 等 系统 级 的 PaaS 服务 已 成 为 
容器 云 的 标 配 ,并 逐渐 往 上 层 发 展 , 比 如 部 署 数据 库 与 缓存 .大 数据 .安全 监控 等 服务 , 以 及 
集成 各 类 SaaS 服务 。 

3. 容器 化 应 用 是 基石 ,一 切 都 封装 在 镜像 里 

Docker 提供 了 一 种 在 安全 隔离 的 容器 中 运行 几乎 所 有 应 用 的 方式 ,这 种 隔离 性 和 安全 
性 允许 在 同一 主机 上 同时 运行 多 个 容器 ,而 容器 的 这 种 轻 量 级 特性 意味 着 可 以 节省 更 多 的 
系统 资源 ,因为 不 必 消 耗 运行 Hypervisor 所 需要 的 额外 负载 。 对 于 容器 云 而 言 ,所 有 的 应 
用 都 需要 容器 化 以 后 才能 发 布 .即将 应 用 程序 打包 进 Docker 容器 ,以 镜像 的 方式 运行 。 容 
器 化 应 用 未 来 将 会 成 为 云端 应 用 交付 的 标准 。 

4. 实现 更 快速 的 交付 和 部 署 

对 于 开发 者 来 说 ,往往 希望 能 够 一 次 构建 ,随处 运行 。 试 想 一 下 ,如 果 团 队 里 有 10 个 开 
发 者 ,按照 传统 的 方式 ,每 个 新 来 的 人 往往 需要 在 自己 的 环境 里 重复 搭建 一 套 开发 测试 环 
境 , 而 通常 因为 系统 的 不 一 致 (有 的 人 使 用 Windows, 有 的 人 使 用 Ubuntu, 抑 或 是 Mac) 导 
致 出 错 率 大 大 提高 及 效率 的 降低 。 而 使 用 Docker 之 后 ,开发 者 可 以 使 用 一 个 标准 的 镜像 来 
构建 一 套 开发 环境 ,开发 完成 之 后 , 运 维 人 员 可 以 直接 使 用 这 个 容器 来 部 署 代码 。Docker 
可 以 快速 创建 容器 ,快速 迭代 应 用 程序 ,并 让 整个 过 程 全 程 可 见 ,使 团队 中 的 其 他 成 员 更 容 
易 理 解 应 用 程序 是 如 何 创建 和 工作 的 。 

5. 更 易于 微服 务 架构 的 实现 

微服 务 采用 一 组 服务 的 方式 构建 一 个 应 用 ,服务 独立 部 署 在 不 同 的 进程 中 ,不 同 的 服务 
通过 一 些 轻 量 级 交互 机 制 来 通信 ,例如 RPC、HTTP 等 。 服 务 可 独立 扩展 伸缩 ,每 个 服务 定 
义 了 明确 的 边界 ,不 同 的 服务 甚至 可 以 采用 不 同 的 编程 语言 来 实现 ,由 独立 的 团队 来 维护 。 
微服 务 通常 具有 相互 独立 、 原 子 化 、. 松 耦合 结构 等 特点 。 基 于 Docker 的 容器 云 更 易于 微服 
务 架构 的 实现 ,主要 体现 在 以 下 几 个 方面 : 

(1) 一 个 容器 即 是 一 个 完整 的 执行 环境 ,不 依赖 外 部 任何 的 东西 。 

(2) 一 台 物 理 机 器 可 以 同时 运行 成 百 上 千 个 容器 。 它 的 计算 粒度 足够 的 小 。 

(3) 容器 通常 是 秒 级 创建 和 销毁 .所 以 非常 适合 服务 的 构建 和 重组 。 

(4) 一 系列 的 容器 编排 工具 ,能够 快速 的 实现 服务 的 组 合 和 调度 。 
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6. 更 高 效 的 虚拟 化 

由 于 Docker 轻 量 并 且 快 速 ,因此 相对 于 基于 Hypervisor 的 虚拟 机 的 部 署 方式 ,Docker 
提供 了 一 种 更 可 行 和 划算 的 替代 方案 ,这 对 于 高 密度 部 署 环境 尤其 有 用 ,例如 构建 入 有 云 或 
PaaS。 当 然 , 当 想 在 有 限 的 资源 里 部 署 更 多 的 应 用 时 ,Docker 对 于 中 小 型 的 部 署 也 非常 有 
用 。Docker 容器 的 运行 不 需要 额外 的 Hypervisor 支持 , 它 是 内 核 级 的 虚拟 化 ,因此 可 以 实 
现 更 高 的 性 能 和 效率 。 

7. 容器 的 启动 是 ( 毫 ) 秒 级 的 

通常 ,如 果 要 在 一 台 服 务 器 上 运行 多 个 任务 ,传统 的 方法 是 将 其 划分 为 多 个 虚拟 机 ,使 
用 每 个 虚拟 机 来 运行 一 个 任务 。 但 是 虚拟 机 启动 很 慢 , 因 为 它们 必须 启动 整个 操作 系统 ,这 
要 花 上 几 分 钟 的 时 间 。 而 且 这 会 占用 大 量 资源 ,因为 每 个 虚拟 机 都 需要 运行 一 个 完整 的 操 
作 系 统 实 例 。 容 器 则 提供 了 某 种 类 似 的 行为 ,但 是 速度 更 快 一 些 ,因为 启动 一 个 容器 就 像 启 
动 一 个 进程 。 

8. 像 搭 积木 一 样 进行 资源 编排 

例如 ,在 基于 Kubernetes 的 容器 云 中 可 以 实现 Pod 和 Stack 两 种 层面 的 编排 。 

(1) Pod 编排 。 

适用 于 紧 耦 合 的 服务 组 ,保证 一 组 服务 始终 部 署 在 同一 节点 ,并 可 以 共享 网 络 空间 和 存 
储 卷 。 也 就 是 同一 个 Pod 内 的 容器 可 以 通过 Localhost 访问 彼此 服务 ,共享 网 络 空间 ,容器 
的 端口 不 能 互相 冲突 ; 对 于 同一 个 存储 卷 ,可 以 被 同一 个 Pod 的 多 个 容器 操作 。 通 过 Pod 
编排 ,使 我 们 不 需要 重新 构建 镜像 就 可 以 把 多 个 服务 进行 整合 。 如 果 一 个 容器 推荐 仅 包含 
一 个 进程 ,那么 Pod 更 像 是 可 以 容纳 多 个 进程 的 虚拟 机 。 

(2) Stack 编排 。 

设计 上 与 Docker Compose 相似 ,但 可 以 支持 跨 物理 节点 的 服务 之 间 通 过 API 进行 网 
络 通信 。 以 上 两 种 编排 均 支 持 用 yaml 文件 描述 多 个 容器 及 其 之 间 的 关系 ,定制 各 个 容器 的 
属性 ,并 可 一 键 部 署 运行 。 

9. 易于 管理 

负载 均衡 .弹性 伸缩 日志 监控 ,滚动 升级 等 举 手 可 得 。 

对 于 容器 云 ,通常 只 需要 小 小 的 修改 就 可 以 替代 以 往 大 量 的 更 新 工作 。 所 有 的 修改 都 
以 增 量 的 方式 被 分 发 和 更 新 ,从 而 实现 自动 化 并 且 高 效 的 管理 。 而 以 前 需要 耗费 额外 的 工 
作 去 开发 的 一 些 管理 运 维 的 工作 ,比如 负载 均衡 .全 自动 /半自动 弹性 伸缩 .日 志 监控 ,滚动 
升级 等 往往 成 为 容器 云 的 “ 标 配 ”, 无 须 再 为 这 些 事情 操心 。 

10. 易于 扩展 和 迁移 

容器 云 的 Docker 容器 几乎 可 以 在 任意 的 平台 上 运行 ,包括 物理 机 、 虚 拟 机 、 公 有 云 、 私 
有 云 . 个 人 计算 机 、 服 务 器 等 。 这 种 兼容 性 可 以 让 用 户 把 一 个 应 用 程序 从 一 个 平台 直接 迁移 
到 另外 一 个 。 容 器 云 的 这 种 特性 类 似 于 Java H JVM, Java 程序 可 以 运行 在 任意 安装 了 
JVM 的 设备 上 ,在 迁移 和 扩展 方面 变 得 更 加 容易 。 
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14.2 Kubernetes 应 用 部 署 








十 多 年 来 ,Google 一 直 在 生产 环境 中 使 用 容器 运行 业务 ,负责 管理 其 容器 集群 的 系统 
就 是 Kubernetes 的 前 身 Borg。 其 实现 在 很 多 工作 在 Kubernetes 项 目 上 的 Google 开发 者 
先前 就 在 Borg 这 个 项 目 上 工作 。Kubernetes 管理 容器 集群 ,加 速 开 发 和 简化 运 维 ( 即 
DevOps). 








14.2.1 Kubernetes 架构 


Kubernetes 集群 包括 Kubernetes 代理 (Agents) 和 Kubernetes fig 4 (Master Node) 两 
种 角色 ,代理 角色 的 组 件 包括 Kube-Proxy 和 Kubelet, 它 们 同时 部 署 在 一 个 节点 上 ,这 个 节 
点 也 就 是 代理 节点 。 服 务 角 色 的 组 件 包 括 Kube-Apiserver、 Kube-Scheduler、 Kube- 
ControllerManager, 它 们 可 以 任意 部 署 ,可 以 部 署 在 同一 个 节点 上 , 也 可 以 部 署 在 不 同 的 节 
点 上 。Kubernetes 集群 依赖 的 第 三 方 组 件 目 前 有 Etcd 和 Docker 两 个 。 前 者 提供 状态 存 
储 , 两 者 用 来 管理 容器 。 集 群 还 可 以 使 用 分 布 式 存储 给 容器 提供 存储 空间 。 图 14-2 显示 了 
目前 系统 的 组 成 部 分 。 
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图 14-2. Kubernetes 组 成 


1. Kubernetes 代理 节点 

Kubelet 和 Kube-Proxy 运行 在 代理 节点 上 .它们 监听 服务 节点 的 信息 来 启动 容器 和 实 
现 Kubernetes 网 络 和 其 他 业务 模型 .比如 Service, Pod 等 。 当 然 ,每 个 代理 节点 都 运行 
Docker。Docker 负责 下 载 容器 镜像 和 运行 容器 。 
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1) Kubelet 

Kubelet 组 件 管理 Pods 和 它们 的 容器 ,镜像 和 卷 等 信息 。 

2) Kube-Proxy 

Kube-Proxy 是 一 个 简单 的 网 络 代理 和 负载 均衡 器 , 它 具 体 实现 Service 模型 ,每 个 
Service 都 会 在 所 有 的 Kube-Proxy 节点 上 体现 。 根 据 Service 的 Selector 所 覆盖 的 Pods. 
Kube-Proxy 会 对 这 些 Pods 做 负载 均衡 来 服务 于 Service 的 访问 者 。 

2. Kubernetes 服务 节点 


Kubernetes 服务 组 件 形成 了 Kubernetes 的 控制 平面 ,目前 它们 运行 在 单一 节点 上 ,但 
是 将 来 会 分 开 部 署 ,以 支持 高 可 用 性 。 

1) Etcd 

所 有 的 持久 性 状态 都 保存 在 Etcd 中 。Etcd 同时 支持 Watch, 这 样 组 件 很 容易 得 到 系 
统 状态 的 变化 ,从 而 快速 响应 和 协调 工作 。 

2) Kubernetes API Server 

这 个 组 件 提供 对 APT 的 支持 ,响应 REST 操作 ,验证 API 模型 和 更 新 Etcd 中 的 相应 对 
象 。Scheduler 通过 访问 Kubernetes Binding API, Scheduler 负责 Pods 在 各 个 节点 上 的 
分 配 。Scheduler 是 插件 式 的 ,Kubernetes 将 来 可 以 支持 用 户 自 定义 的 Scheduler, 

3) Kubernetes Controller Manager Server 

Controller Manager Server 负责 所 有 其 他 的 功能 ,比如 Endpoints 控制 器 负责 
Endpoints 对 象 的 创建 ,更 新 。Node 控制 器 负责 节点 的 发 现 ,管理 和 监控 。 将 来 可 能 会 把 
这 些 控制 器 拆 分 并 且 提供 插件 式 的 实现 。 





14.2.2 Kubernetes 模型 


Kubernetes 的 伟大 之 处 就 在 于 它 的 应 用 部 署 模型 , 主要 包括 Pod、Replication 
Controller Label 和 Service, 

1. Pod 

Kubernetes 的 最 小 部 署 单元 是 Pod 而 不 是 容器 。 作 为 First class API 公民 ,Pods 能 被 
创建 .调度 和 管理 。 简 单 地 说 , 像 一 个 豌豆 莹 中 的 豌豆 一 样 , 一 个 Pod 中 的 应 用 容器 共享 同 
一 在 上 上 pE 

(1) PID 名 字 空 间 。 但 是 在 Docker 中 不 支持 。 

(2) 网 络 名 字 空 间 。 在 同一 个 Pod 中 的 多 个 容器 访问 同一 个 P 和 端口 空间 。 

(3) IPC 名 字 空 间 。 同 一 个 Pod 中 的 应 用 能 够 使 用 SystemV IPC 和 POSIX 消息 队列 
进行 通信 。 

(4) UTS 名 字 空间 。 同 一 个 Pod 中 的 应 用 共享 一 个 主机 名 。 

(5) Pod 中 的 各 个 容器 应 用 还 可 以 访问 Pod 级 别 定义 的 共享 卷 。 

从 生命 周期 来 说 ,Pod 应 该 是 短暂 的 ,而 不 是 长 久 的 应 用 。Pods 被 调度 到 节点 ,保持 在 
这 个 节点 上 直到 被 销毁 。 当 节点 死亡 时 ,分 配 到 这 个 节点 的 Pods 将 会 被 删 掉 ,将 来 可 能 会 
实现 Pod 的 迁移 特性 。 在 实际 使 用 时 ,一 般 不 直接 创建 Pods .通过 Replication Controller 
负责 Pods 的 创建 .复制 .监控 和 销毁 。 一 个 Pod 可 以 包括 多 个 容器 ,它们 往往 相互 协作 完 


i] 
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成 一 个 应 用 功能 。 

2. Replication Controller 

复制 控制 器 确保 一 定数 量 的 Pod 在 运行 。 如 果 超 过 这 个 数量 ,控制 器 会 杀 死 一 些 ; 如 
果 少 了 ,控制 器 会 启动 一 些 。 控 制 器 也 会 在 节点 失效 、 维 护 的 时 候 保证 这 个 数量 。 所 以 强烈 
建议 即使 份 数 是 1, 也 要 使 用 复制 控制 器 ,而 不 是 直接 创建 Pod。 

从 生命 周期 上 讲 , 复 制 控 制 器 自己 不 会 终止 ,但 是 跨度 不 会 比 Service 强 。Service 能 够 
横 跨 多 个 复制 控制 器 管理 的 Pods。 而 且 在 一 个 Service 的 生命 周期 内 ,复制 控制 器 能 被 删 
除 和 创建 。Service 和 客户 端 程序 是 不 知道 复制 控制 器 的 存在 的 。 

复制 控制 器 创建 的 Pods 应 该 是 可 以 互相 蔡 换 的 和 语义 上 相同 的 ,这 个 对 无 状态 服务 特 
别 合 i 

Pod 是 临时 性 的 对 象 ,被 创建 和 销毁 ,而 且 不 会 恢复 。 复 制 器 动态 地 创建 和 销毁 Pod, 
虽然 Pod 会 分 配 到 IP 地 址 ,但 是 这 个 IP 地 址 都 不 是 持久 的 。 这 样 就 产生 了 一 个 疑问 : 外 
部 如 何 消费 Pod 提供 的 服务 呢 ? 

3. Service 

Service 定义 了 一 个 Pod 的 逻辑 集合 和 访问 这 个 集合 的 策略 。 集 合 是 通过 定义 Service 
时 提供 的 Label 选择 器 完成 的 。 举 个 例子 ,假定 有 三 个 Pod 的 备份 来 完成 一 个 图 像 处 理 的 
后 端 。 这 些 后 端 备份 逻辑 上 是 相同 的 ,前 端 不 关心 哪个 后 端 在 给 它 提供 服务 。 虽 然 组 成 这 
个 后 端的 实际 Pod 可 能 变化 ,但 是 前 端 客 户 端 不 会 意识 到 这 个 变化 ,也 不 会 跟踪 后 端 。 
Service 就 是 用 来 实现 这 种 分 离 的 抽象 。 

对 于 Service, 还 可 以 定义 Endpoint,Endpoint 把 Service 和 Pod 动态 地 连接 起 来 。 

4. Service Cluster IP 和 Kuber Proxy 

每 个 代理 节点 都 运行 了 一 个 Kube-Proxy 进程 ,这 个 进程 从 服务 进程 那 边 得 到 Service 
和 Endpoint 对 象 的 变化 。 对 于 每 一 个 Service, 它 在 本 地 打开 一 个 端口 ,到 这 个 端口 的 任意 
连接 都 会 代理 到 后 端 Pod 集合 中 的 一 个 Pod IP 和 端口 。 在 创建 了 服务 后 ,服务 Endpoint 
模型 会 体现 后 端 Pod 的 IP 和 端口 列表 ,Kube-Proxy 就 是 从 这 个 Endpoint 维护 的 列表 中 选 
择 服务 后 端的 。 另 外 ,Service 对 象 的 SessionAffinity 属性 也 会 帮助 Kube-Proxy 来 选择 哪 
个 具体 的 后 端 。 默 认 情 况 下 , 后 端 Pod 的 选择 是 随机 的 。 可 以 设置 service. spec. 
sessionAffinity 为 Client IP 来 指定 同一 个 Client IP 的 流量 代理 到 同一 个 后 端 ,如 图 14-3 
所 示 。 

在 实现 上 ,Kube-Proxy 会 用 IPtables 规则 把 访问 Service 的 Cluster IP 和 端口 的 流量 
和 E 定 向 到 这 个 本 地 端口 。 下 面 介 绍 Service 的 Cluster IP. 


14.2.3 内 部 使 用 者 的 服务 发 现 











1. Kubernetes 
在 一 个 集群 内 创建 的 对 象 或 者 在 代理 集群 节点 上 发 出 访问 的 客户 端 称 为 内 部 使 用 者 。 
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图 14-3 通过 Kube-Proxy 访问 容器 


要 把 服务 暴露 给 内 部 使 用 者 ,Kubernetes 支持 两 种 方式 : 环境 变量 和 DNS. 

1) 环境 变量 

当 Kubelet 在 某 个 节点 上 启动 一 个 Pod 时 , 它 会 给 这 个 Pod 的 容器 为 当前 运行 的 Service 
设置 一 系列 环境 变量 ,这 样 Pod 就 可 以 访问 这 些 Service 了 。 一 般 情 况 是 {SVCNAME} __ 
SERVICE_HOST 和 {SVCNAME)_SERVICE_PORT 变量 ,其 中 {SVCNAME) 是 Service 
名 字 变 成 大 写 , 中 画 线 变 成 下 画 线 。 比 如 Service "redis-master", 它 的 端口 是 TCP 6379, 分 配 
到 的 Cluster IP 地 址 是 10. 0. 0. 11,Kubelet 可 能 会 产生 下 面 的 变量 给 新 创建 的 Pod 容器 : 

REDIS_MASTER_SERVICE_HOST= 10.0.0.11 

REDIS_MASTER_SERVICE_PORT = 6379 

REDIS_MASTER_PORT = tcp://10.0.0.11:6379 

REDIS_MASTER_PORT_6379_TCP = tcp:// 10.0.0.11 :6379 

REDIS_MASTER_PORT_6379_TCP_PROTO= tcp 

REDIS_MASTER_PORT_6379_TCP_PORT = 6379 

REDIS_MASTER_PORT_6379_TCP_ADDR = 

10.0.0.11 


注意 : RATER Service 后 创建 的 Pod 才 会 有 这 个 Service 的 环境 变量 。 

2) DNS 

一 个 可 选 的 Kubernetes 附件 (强烈 建议 用 户 使 用 ) 是 DNS 服务 。 它 跟踪 集群 中 的 
Service 对 象 ,为 每 个 Service 对 象 创建 DNS 记录 。 这 样 所 有 的 Pod 就 可 以 通过 DNS 访问 
服务 了 。 比 如 ,在 Kubernetes 的 名 字 空 间 my-ns 中 有 一 个 叫 my-service 的 服务 ,DNS 服务 
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会 创建 一 条 my-service. my-ns 的 DNS 记录 。 同 在 这 个 命名 空间 的 Pod 就 可 以 通过 my- 
service 来 得 到 这 个 Service 分 配 到 的 Cluster IP, 在 其 他 命名 空间 的 Pod 则 可 以 用 全 限定 名 
my-service. my-ns 来 获得 这 个 Service 的 地 址 。 

2. Pod IP 和 Service Cluster IP 


Pod IP 地 址 是 实际 存在 于 某 个 网 卡 ( 可 以 是 虚拟 设备 ) 上 的 ,但 Service Cluster IP 就 不 
一 样 了 ,没有 网 络 设备 为 这 个 地 址 负责 。 它 是 由 开 ube-Proxy 使 用 Iptables 规则 重新 定向 到 
其 本 地 端口 ,再 均衡 到 后 端 Pod 的 。 前 面 说 的 Service 环境 变量 和 DNS 都 使 用 Service 的 
Cluster IP 和 端口 。 

当 Service 被 创建 时 ,Kubernetes 给 它 分 配 一 个 地 址 10. 0. 0.1。 这 个 地 址 从 启动 API 
的 service-cluster-ip-range 参数 (旧版 本 为 portal_net 参数 ) 指 定 的 地 址 池 中 分 配 , 比如 
一 service-cluster-ip-range =10. 0. 0.0/16。 假 设 这 个 Service 的 端口 是 1234, 集 群 内 的 所 有 
Kube-Proxy 都 会 注意 到 这 个 Service。 当 Proxy 发 现 一 个 新 的 Service 后 , 它 会 在 本 地 节点 
打开 一 个 任意 端口 ,建立 相应 的 Iptables 规则 , 重 定向 服务 的 IP 和 Port 到 这 个 新 建 的 端 
口 , 开 始 接收 到 达 这 个 服务 的 连接 。 

当 一 个 客户 端 访问 这 个 Service 时 ,这 些 Iptable 规则 就 开始 起 作用 ,客户 端的 流量 被 重 
定向 到 Kube-Proxy 为 这 个 Service 打开 的 端口 上 ,Kube-Proxy 随机 选择 一 个 后 端 Pod 来 
服务 客户 。 这 个 流程 如 图 14-4 所 示 。 

根据 Kubernetes 的 网 络 模型 ,使 用 Service Cluster IP 和 Port 访问 Service 的 客户 端 可 
以 坐落 在 任意 代理 节点 上 。 外 部 要 访问 Service ,就 需要 给 Service 外 部 访问 IP 。 
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图 14-4 内 部 使 用 者 服务 发 现 


14.2.4 外 部 访问 Service 


Service 对 象 在 Cluster IP Range 池 中 分 配 到 的 IP 只 能 在 内 部 访问 ,如 果 服务 作为 一 个 
应 用 程序 内 部 的 层次 还 是 很 合适 的 。 如 果 这 个 Service 作为 前 端 服务 ,准备 为 集群 外 的 客户 
提供 业务 ,就 需要 给 这 个 服务 提供 公共 IP 了 。 

外 部 访问 者 是 访问 集群 代理 节点 的 访问 者 。 为 这 些 访问 者 提供 服务 ,可 以 在 定义 
Service 时 指定 其 spec. publicIPs, 一 般 情 况 下 PublicIP 是 代理 节点 的 物理 IP 地 址 。 和 先前 
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Cluster IP Range 上 分 配 到 的 虚拟 IP 一 样 ,Kube-Proxy 同样 会 为 这 些 PublicIP 提供 
Iptables 重 定向 规则 , 把 流量 转发 到 后 端的 Pod 上 。 有 了 PublicIP, 就 可 以 使 用 Load 
Balancer 等 常用 的 因特网 技术 来 组 织 外 部 对 服务 的 访问 了 。 

spec. publicIPs 在 新 的 版 本 中 标记 为 过 时 了 ,代替 它 的 是 spec. type= NodePort, 这 个 
类 型 的 Service, 系统 会 给 它 在 集群 的 各 个 代理 节点 上 分 配 一 个 节点 级 别 的 端口 ,能 访问 到 
代理 节点 的 客户 端 都 能 访问 这 个 端口 ,从 而 访问 到 服务 。 





14.3 Mesos 应 用 


Mesos 是 Apache 下 的 开源 分 布 式 资源 管理 框架 ,被 称 为 分 布 式 系统 的 内 核 。Mesos 
最 初 是 由 加 州 大 学 伯克利 分 校 的 AMPLab 开发 的 ,后 来 在 Twitter 中 得 到 广泛 使 用 。 


14.3.1 Mesos 体系 结构 和 工作 流 


Mesos 实现 了 两 级 调度 架构 , 它 可 以 管理 多 种 类 型 的 应 用 程序 。 第 一 级 调度 是 Master 
的 守护 进程 ,管理 Mesos 集群 中 所 有 节点 上 运行 的 Slave 守护 进程 。 集 群 由 物理 服务 器 或 
虚拟 服务 器 组 成 ,用 于 运行 应 用 程序 的 任务 ,比如 Hadoop 和 MPI 作业 。 第 二 级 调度 由 被 
称 作 Framework 的 组件” 组 成 。Framework 包括 调度 器 (Scheduler) 和 执行 器 (Executor) 
进程 ,其 中 每 个 节点 上 都 会 运行 执行 器 。Mesos 能 和 不 同类 型 的 Framework 通信 ,每 种 
Framework 由 相应 的 应 用 集群 管理 。 图 14-5 展示 了 Hadoop 和 MPI 两 种 类 型 ,其 他 类 型 
的 应 用 程序 也 有 相应 的 Framework。 
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图 14-5 Mesos 两 级 调度 架构 


Mesos Master 协调 全 部 的 Slave, 并 确定 每 个 节点 的 可 用 资源 ,聚合 计算 跨 节点 的 所 有 
可 用 资源 的 报告 ,然后 向 注册 到 Master 的 Framework( 作 为 Master 的 客户 端 ) 发 出 资源 邀 
约 。Framework 可 以 根据 应 用 程序 的 需求 选择 接受 或 拒绝 来 自 Master 的 资源 邀约 。 一 旦 
接受 邀约 ,Master 即 协 调 Framework 和 Slave, 调度 参 与 节点 上 的 任务 ,并 在 容器 中 执行 ， 
以 使 多 种 类 型 的 任务 ,比如 Hadoop 和 Cassandra 可 以 在 同一 个 节点 上 同时 运行 。 
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14.3.2 Mesos 流程 


Slave 是 运行 在 物理 或 虚拟 服务 器 上 的 Mesos 守护 进程 ,是 Mesos 集群 的 一 部 分 。 
Framework 由 调度 器 (Scheduler) 应 用 程序 和 任务 执行 器 (Executor) 组 成 , 被 注册 到 
Mesos, 以 使 用 Mesos 集群 中 的 资源 ,如 图 14-6 所 示 。 
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图 14-6 Mesos 流程 


(1) Slave 1 向 Master 汇报 其 空闲 资源 : 4 个 CPU、4GB 内 存 。 然 后 Master 触发 分 配 
策略 模块 ,得 到 的 反馈 是 Framework 1 要 请 求全 部 可 用 资源 。 

(2) Master 向 Framework 1 发 送 资源 邀约 ,描述 了 Slave 1 上 的 可 用 资源 。 

(3) Framework 的 调度 器 响应 Master, 需 要 在 Slave 上 运行 两 个 任务 ,第 一 个 任务 分 配 
< 2CPUs, 1GB RAM > 资源 ,第 二 个 任务 分 配 < 1CPUs. 2GB RAM > 资源 。 

(4) Master 向 Slave 下 发 任务 ,分 配 适 当 的 资源 给 Framework 的 任务 执行 器 , 接 下 来 
由 执行 器 启动 这 两 个 任务 (如 图 14-6 中 虚线 框 所 示 )。 此 时 还 有 一 个 CPU 和 1GB 的 RAM 
尚未 分 配 , 因 此 分 配 模块 可 以 将 这 些 资 源 供给 Framework 2, 


14.3.3 Mesos 资源 分 配 


为 了 实现 在 同一 组 Slave 节点 集合 上 运行 多 任务 这 一 目标 , Mesos 使 用 了 隔离 模块 ,该 
模块 使 用 了 一 些 应 用 和 进程 隔离 机 制 来 运行 这 些 任务 .支持 容器 隔离 。Mesos 早 在 2009 年 
就 用 上 了 Linux 的 容器 技术 ,如 cgroups 和 Solaris Zone, 时 至 今日 这 些 仍然 是 默认 的 。 然 
而 ,Mesos 社区 增加 了 Docker 作为 运行 任务 的 隔离 机 制 。 不 管 使 用 哪 种 隔离 模块 ,为 运行 
特定 应 用 程序 的 任务 ,都 需要 将 执行 器 全 部 打包 ,并 在 已 经 为 该 任务 分 配 资源 的 Slave 服务 
器 上 启动 。 当 任务 执行 完毕 后 .容器 会 被 “销毁”, 资 源 会 被 释放 ,以 便 可 以 执行 其 他 任务 。 

Mesos 管理 跨 多 个 Framework 和 应 用 的 资源 .是 不 可 或 缺 的 。 由 Master 向 注册 其 上 
的 Framework 发 送 资 源 邀 约 。 每 次 资源 邀约 包含 一 份 Slave 节点 上 可 用 的 CPU、RAM 等 
资源 的 列表 。Master 提供 这 些 资源 给 它 的 Framework 是 基于 分 配 策略 的 。 分 配 策略 对 所 








第 14 章 容器 即 服务 à 


有 的 Framework 普遍 适用 ,同时 适用 于 特定 的 Framework。Framework 可 以 拒绝 资源 邀 
约 , 如 果 它 不 满足 要 求 ,资源 邀约 随即 可 以 发 给 其 他 Framework。 由 Mesos 管理 的 应 用 程 
序 通 常 运行 短 周期 的 任务 ,因此 这 样 可 以 快速 释放 资源 ,缓解 Framework 的 资源 饥饿 。 
Slave 定期 向 Master 报告 其 可 用 资源 ,以 便 Master 能 够 不 断 产 生 新 的 资源 邀约 。 另 外 ,还 
可 以 使 用 诸如 此 类 的 技术 ,每 个 Fraamework 过 滤 不 满足 要 求 的 资源 邀约 ,Master 主动 废 
除 给 定 周期 内 一 直 没 有 被 接受 的 邀约 。 

分 配 策略 有 助 于 Mesos Master 判断 是 否 应 该 把 当前 可 用 资源 提供 给 特定 的 
Framework, 以 及 应 该 提供 多 少 资 源 。Mesos 通过 可 插 拔 的 分 配 模块 分 配 资源 ,实现 非常 细 
粒度 的 资源 共享 。Mesos 实现 了 公平 共享 和 严格 优先 级 分 配 模块 ,确保 大 部 分 用 例 的 最 佳 
资源 共享 。 已 经 实现 的 新 分 配 模块 可 以 处 理 大 部 分 之 外 的 用 例 。 


14.3.4 Mesos 优势 


Mesos 集 四 大 优势 于 一 身 ,将 成 为 下 一 代数 据 中 心 的 操作 系统 内 核 。 

1. 效率 

如 今 ,在 大 多 数 数据 中 心中 ,服务 器 的 静态 分 区 是 常态 ,即使 使 用 最 新 的 应 用 程序 , 如 
Hadoop。 令 人 担忧 的 是 , 当 不 同 的 应 用 程序 使 用 相同 的 节点 时 ,调度 相互 冲突 ,可 用 资源 互 
相 争 抢 。 静 态 分 区 本 质 上 是 低 效 的 ,因为 经 常会 面临 ,其 中 一 个 分 区 已 经 资源 耗 尽 ,而 另 一 
个 分 区 的 资源 却 没有 得 到 充分 利用 ,而 且 没有 什么 简单 的 方法 能 跨 分 区 集群 重新 分 配 资源 。 
使 用 Mesos 资源 管理 器 仲裁 不 同 的 调度 器 ,将 进入 动态 分 区 /弹性 共享 的 模式 ,所 有 应 用 程 
序 都 可 以 使 用 节点 的 公共 池 ,安全 地 、 最 大 化 地 利用 资源 。 一 个 经 常 被 引用 的 例子 是 Slave 
节点 通常 运行 Hadoop 作业 ,在 Slave 空闲 阶段 动态 分 配给 它们 运行 批 处 理 作 业 , 反 之 亦 然 。 
值得 一 提 的 是 ,这 其 中 的 某 些 环节 可 以 通过 虚拟 化 技术 ,如 基于 VMware vSphere 的 Mesos 
体系 结构 和 工作 流 布 式 资源 调度 (DRS) 来 完成 。 然 而 , Mesos 具有 更 精细 的 粒度 ,因为 
Mesos 在 应 用 层 而 不 是 机 器 层 分 配 资源 ,通过 容器 而 不 是 整个 虚拟 机 (VM) 分 配 任务 。 前 
者 能 够 为 每 个 应 用 程序 的 特殊 需求 做 考量 ,应 用 程序 的 调度 器 知道 最 有 效 地 利用 资源 ; 后 
者 能 够 更 好 地 “ 装 箱 ”, 运 行 一 个 任务 ,没有 必要 实例 化 整个 虚拟 机 。 

2. 敏捷 

与 效率 和 利用 率 密切 相关 ,往往 效率 解决 的 是 "如何 花 最 少 的 钱 最 大 化 数据 中 心 的 资 
源 ”, 而 敏捷 解决 的 是 “如 何 快速 用 上 手头 的 资源 "。Mesos 可 以 确保 关键 应 用 程序 不 能 耗 尽 
所 需 资源 。 

3. 可 扩展 性 

为 可 扩展 而 设计 。Mesos 的 一 个 重要 属性 是 应 对 数据 可 以 指数 级 增长 ,分 布 式 应 用 可 
以 水 平 扩展 。 当 前 发 展 已 经 远 远 超出 了 使 用 巨大 的 整体 调度 器 或 者 限定 群集 节点 数量 为 
64 的 时 代 , 足 以 承载 新 形式 的 应 用 扩张 。Mesos 可 扩展 设计 的 关键 之 处 是 采用 两 级 调度 架 
构 。 使 用 Framework 代理 任务 的 实际 调度 ,Master 可 以 用 非常 轻 量 级 的 代码 实现 ,更 易于 
扩展 集群 发 展 的 规模 ,因为 Master 不 必 知 道 所 支持 的 每 种 类 型 的 应 用 程序 背后 复杂 的 调度 
逻辑 。 此 外 ,由 于 Master 不 必 为 每 个 任务 做 调度 ,因此 不 会 成 为 容量 的 性 能 瓶颈 ,而 这 在 为 
每 个 任务 或 者 虚拟 机 做 调度 的 整体 调度 器 中 经 常 发 生 。 
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4. 模块 化 

Mesos 设计 具有 包容 性 ,可 以 将 功能 插件 化 ,比如 分 配 策略 .隔离 机 制 和 Framework, 
将 容器 技术 ,比如 Docker 和 Rocket 插件 化 的 好 处 是 显而易见 的 。 但 是 ,在 此 强调 的 是 围绕 
Framework 建设 的 生态 系统 。 将 任务 调度 委托 给 Framework 应 用 程序 ,以 及 采用 插件 架 
构 , 通 过 这 样 的 设计 ,Mesos 成 为 数据 中 心 资源 管理 的 生态 系统 的 核心 。 因 为 每 接 入 一 种 新 
的 Framework, Master 无 须 为 此 编码 ,Slave 模块 可 以 复 用 ,使 得 在 Mesos 所 支持 的 宽泛 领 
域 中 业务 迅速 增长 。 相 反 , 开 发 者 可 以 专注 于 他 们 的 应 用 和 Framework 的 选择 。 





14.4 基于 Kubernetes 打造 SAE 容器 云 


SAE 一 直 以 自 有 技术 提供 超 轻 量 级 的 租户 隔离 , 原 有 的 隔离 技术 有 很 大 的 弊端 ,最 主 
要 表现 在 namespace 独立 性 不 足 , 本 地 读 写 支持 度 不 好 ,容易 产生 用 户 Lock-In。 针 对 于 此 ， 
SAE 决定 基于 Kubernetes 技术 推出 以 Docker 容器 为 运行 环境 的 容器 云 。 


14.4.1 Kubernetes 的 好 处 


Kubernetes 由 Go 语言 编写 ,各 个 逻辑 模块 功能 比较 清晰 ,可 以 很 快 定位 到 功能 点 进行 
修改 。 另 外 ,Kubernetes 可 以 非常 方便 地 部 署 在 CentOS 上 。Kubernetes 提出 一 个 Pod 的 
概念 ,Pod 可 以 说 是 逻辑 上 的 容器 组 , 它 包 含 运 行 在 同一 个 节点 上 的 多 个 容器 ,这 些 容器 一 
般 是 业务 相关 的 ,它们 可 以 共享 存储 和 快速 网 络 通信 。 这 种 在 容器 层 上 的 逻辑 分 组 非常 适 
合 实际 的 业务 管理 ,这 样 用 户 可 以 按照 业务 模块 组 成 不 同 的 Pod。 例 如 ,以 一 个 电 商 业务 为 
例 , 可 以 把 PC 端 网 站 作为 一 个 Pod ,移动 端 API 作为 另 一 个 Pod. H5 端 网 站 再 作为 一 个 
Pod, 这 样 每 个 业务 都 可 以 根据 访问 量 使 用 适当 数量 的 Pod, 并 且 可 以 根据 自己 的 需求 进行 
扩容 和 容 灾 。 

相同 的 Pod 可 以 由 Replication Controller 来 控制 ,这样 的 设计 方便 Pod 的 扩容 、 缩 容 ， 
特别 是 当 有 Pod 处 于 不 健康 的 状态 时 ,可 以 快速 切换 至 新 的 Pod ,保证 总 Pod 数 不 变 , 而 不 
影响 服务 。 这 种 模式 保证 了 实际 业务 的 稳定 性 。 


14.4.2 容器 云 网 络 


无 论 是 IaaS 还 是 PaaS ,租户 间隔 离 都 是 最 基本 的 需求 ,两 个 租户 间 的 网 络 不 能 互通 。 
对 于 PaaS 来 讲 , 一 般 做 到 网 络 层 基本 就 可 以 了 .因为 用 户 无 法 生成 数据 链 路 层 的 代码 ; 而 
对 于 IaaS 来 讲 , 就 要 做 到 数据 链 路 层 隔离 ,否则 用 户 可 以 看 到 别人 的 mac 地 址 ,然后 很 容易 
就 可 以 构造 数据 链 路 层 数据 帧 来 攻击 别人 。 对 于 PaaS 来 讲 , 还 需要 做 传输 层 和 应 用 层 的 
隔离 处 理 , 比 如 PaaS 的 网 络 入 口 和 出 口 一 般 都 是 共享 的 ,所 以 PaaS 需要 针对 不 同 的 应 用 
层 协议 做 配额 控制 ,比如 不 能 让 某 些 用 户 的 抓 取 电 商 行为 导致 所 有 用 户 不 能 访问 电 商 
网 站 。 

目前 主流 的 Docker 平台 的 网 络 方案 主要 有 两 种 : Bridge 和 NAT, Bridge 实际 是 将 容 
器 置 于 物理 网 络 中 ,容器 拿 到 的 是 实际 的 物理 内 网 IP, 直 接 的 通信 和 传统 的 IDC 间 通 信 没 
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有 什么 区 别 。 而 NAT 实际 是 将 容器 内 的 网 络 IP: Port 映射 为 物理 实际 网 络 上 的 IP: Port, 
优点 是 节约 内 网 IP, 缺 点 是 因为 做 NAT 映射 ,速度 比较 慢 。 基 于 SAE 的 特点 ,采用 优化 后 
的 NAT 方案 。 

根据 需求 ,第 一 步 要 将 内 外 网 流量 分 开 , 进 行 统计 和 控制 。 在 容器 中 通过 eth0 和 
ethl 连接 宿主 机 的 docker0 外 网 和 dockerl 内 网 bridge, 将 容器 的 内 外 网 流量 分 开 , 这 样 才 
能 对 内 外 网 区 分 对 待 ,内 网 流量 免费 ,而 外 网 流量 需要 计 费 统计 ,同时 内 外 网 流量 都 需 
要 QoS。 

第 二 步 是 要 实现 多 租户 网 络 隔离 ,借鉴 IaaS 在 vxlan&gre 的 做 法 ,通过 对 用 户 的 数据 
包 打 tag, 从 而 标识 用 户 ,然后 在 网 络 传输 中 只 允许 在 同一 租户 之 间 网 络 包 传输 ,如 图 14-7 
所 示 。 


host 















































container 1 container 2 
eth0 eth1 
172.17.0.17 | {10.10.101.150 si a 
vethfcad902 veth* vethtpl 18652 veth* 
Docker 0 Docker 1 
172.17.42.1 10.10.101.254 
外 网 流量 内 网 流量 














eth0 
10.39.120.28 


图 14-7 同一 租户 间 网 络 传输 


当 网 络 包 从 容器 出 来 后 , 先 经 过 TagQueue 进程 ,TagQueue 负责 将 网 络 包 加 上 租户 
ID, 然 后 网 络 包 会 被 Docker 默认 的 Iptables 规则 进行 SNAT, 之 后 这 个 网 络 包 就 变 成 了 一 
个 可 以 在 物理 网 络 中 传输 的 真实 网 络 包 ,目标 地 址 为 目标 宿主 机 IP。 当 到 达 目 标 时 ,宿主 
机 网 络 协议 栈 会 先 将 该 网 络 包 交 给 运行 在 宿主 机 上 的 TagQueue 进程 ,TagQueue 负责 从 
网 络 包 中 解 出 租户 ID, 然 后 判断 是 否 合法 ， 
如 果 不 合法 直接 丢弃 ,否则 继续 进行 Docker Docker Docker 


默认 的 DNAT, 之 后 进入 容器 目标 地 址 ,如 1 
图 14-8 所 示 。 hr > DNAT 
除去 Pod 间 的 多 租户 网 络 , 对 外 网 络 部 DA 


分 ,SAE 容器 云 直接 对 接 SAE 标准 的 流量 |  . 
控制 系统 .DDoS 防 攻击 系统 .应 用 防火 墙 系 | KERS 


统 和 流量 加 速 系统 ,保证 业务 的 对 外 流量 >77 
正常 。 图 14-8 容器 间 流 量 控制 
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14.4.3 容器 云 存 储 


对 于 业务 来 讲 , 对 存储 的 敏感 度 甚至 超过 了 网 络 ,因为 几乎 所 有 业务 都 希望 在 容器 之 上 
有 一 套 安全 可靠 .高速 的 存储 方案 。 对 于 用 户 的 不 同 需求 ,容器 云 对 接 了 SAE 原 有 PaaS 
服务 的 Memcache, MySQL, Storage, KVDB 服务 ,以 满足 缓存 .关系 型 数据 库 、 对 象 存储 、 键 
值 存储 的 需求 。 

为 了 保证 Node. js 等 应 用 在 容器 云 上 的 完美 运行 ,容器 云 还 引入 了 一 个 类 似 EBS 的 弹 
性 共享 存储 ,以 保证 用 户 在 多 容器 间 的 文件 共享 。 针 对 这 种 需求 ,Kubernetes 并 没有 提供 
解决 方案 ,于 是 SAE 基于 GlusterFS 改进 了 一 套 分 布 式 共享 文件 存储 SharedStorage 来 满 
EAP: 








如 图 14-9 所 示 , 以 4 个 节点 (Brick) 为 例 ,两 两 一 
组 组 成 distributed-replicated volume 提供 服务 ,用 户 
mount 可 以 根据 需求 创建 不 同 大 小 的 SharedStorage, 并 选择 
a] | ae 挂 载 在 用 户 指 定 的 文件 目录 mount 之 后 ,就 可 以 像 本 
地 文件 系统 一 样 使 用 。 针 对 GlusterFS 的 改进 主要 有 
brick0 | [ brick ] f brick2 J [ bricks ) 三 个 方面 : 

(1) 增加 了 统计 ,通过 编写 自己 的 translator 模块 

加 入 了 文件 读 写 的 实时 统计 。 
(2) 增加 了 针对 整个 集群 的 监控 ,能 够 实时 查看 


Pod ] (Pod } (pod 
































图 14-9 SAE Kubernetes 结构 


各 个 brick, volume 的 状态 。 

(3) 通过 改写 syscall table 来 优化 hook IO 操作 ,并 执行 容器 端的 IO Quota, 这 样 防止 
某 个 容器 内 的 应 用 程序 恶意 执行 IO 操作 而 导致 其 他 用 户 受 影响 。 

通过 SharedStorage 服务 ,用 户 可 以 非常 方便 地 实现 容器 热 迁移 , 当 物 理 机 宕 机 后 , 保 
留 在 SharedStorage 中 的 数据 不 会 丢失 ,Kubernetes 的 Replication Controller 可 以 快速 地 
在 另外 一 个 物理 节点 上 将 容器 重新 运行 起 来 ,而 这 个 业务 不 受 影响 。 


14.5 基于 Mesos 去 哪儿 网 容器 云 


14.5.1 背景 


1. 业务 线 开发 环境 的 困扰 


去 哪儿 网 希望 可 以 提供 Docker 环境 帮助 他 们 快速 构建 开发 环境 实现 网 上 购 票 ,加 速 功 
能 的 迭代 。 去 哪儿 网 OpsDev 团队 也 在 容器 寻找 试点 ,进行 多 方 调研 。 

系统 包含 了 几 十 个 模块 ,快速 迁 代 的 系统 ,开发 团队 需要 一 个 相对 稳定 的 ,能 覆盖 周边 
模块 的 开发 和 自 测 环境 。 除 了 要 申请 虚拟 机 外 ,还 要 新 增 profile, 创 建 jenkins job, 发 布 服 
务 依赖 等 一 系列 的 流程 。 并 且 运 维 这 套 环境 又 是 一 个 大 麻烦 : 项 目 之 间 的 依赖 关系 写 在 配 
置 文件 中 ,切换 环境 时 需要 手工 修改 ; 多 套 不 同 版 本 的 环境 维护 起 来 费时 费力 ; 对 于 涉及 
面 较 广 的 联 调 , 需 要 其 他 组 配合 完成 ,有 效 保证 模块 间 的 版 本 一 致 。 主 要 问题 表现 如 下 : 
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(1) 版 本 一 致 , 即 代码 版 本 ,配置 版 本 和 数据 库 Schema 一 致 ,减少 联 调 时 不 必要 的 适 配 
和 调整 。 

(2) 快速 切换 多 套 环 境 。 

(3) 服务 依赖 ,开发 新 人 也 可 以 轻松 部 署 整套 复杂 的 环境 。 

(4) 维护 简单 ,例如 新 增 项 目 时 自动 加 入 到 整套 环境 中 。 

(5) 低 学 习 成 本 ,节约 时 间 去 开发 业务 。 

(6) 环境 隔离 ,最 好 每 个 人 一 套 完整 环境 ,不 互相 影响 。 

2. 初步 的 解决 方案 

业务 线 工程 师 用 Docker-Compose 临时 搭建 了 一 套 开 发 环境 ,但 是 需要 手工 维护 版 本 
及 Nginx 的 转发 ,同时 也 暴露 出 了 更 多 的 问题 : 

(1) 能 支撑 如 此 多 模块 的 Compose 只 能 是 实体 机 ,资源 限制 较 大 。 

(2) 扩容 模块 时 的 端口 冲突 问题 。 

G) 数据 库 持续 集成 。 

(4) 容器 固定 IP。 


14.5.2 应 用 Mesos 构建 容器 云 


参考 了 现 有 的 容器 集群 方案 后 ,最 终 焦 点 集中 在 了 Apache Mesos (简称 Mesos) fil 
Google Kubernetes 上 。Kubernetes 的 Pod 和 Service 概念 更 贴近 业务 线 的 诉求 ,同时 
Mesos 在 资源 管理 和 调度 灵活 性 上 显然 经 得 起 生产 的 考验 。 决 定 两 者 并 行 测试 ,在 各 自 的 
优势 方向 寻找 试点 项 目 做 验证 ,最 终 选 型 Mesos。 

仔细 考量 后 ,选择 基于 ELK 构建 的 日 志平 台 作为 验证 Mesos+ Docker 的 切入 点 ,积累 
相关 的 开发 和 运 维 经 验 , 如 图 14-10 所 示 。 

首先 容器 化 的 是 Logstash 和 Kibana. Kibana 本 身 作 为 ElasticSearch 的 数据 聚合 展示 
层 , 自 身 就 是 无 状态 化 的 ,Logstash 对 SIGTERM 有 专门 的 处 理 , Docker Stop 的 时 候 可 以 
从 容 处 理 完 队 列 中 的 消息 再 退出 。 而 ElasticSearch 部 署 在 Mesos 集群 外 ,主要 考虑 到 数据 
持久 化 的 问题 及 资源 消耗 。 采 用 Marathon 和 Chronos 调度 Logstash 和 Kibana, 以 及 相关 
的 监控 .统计 和 日 志 容器 。 

数据 来 自 多 种 方式 ,针对 不 同 的 日 志 类 型 采取 不 同 的 发 送 策略 ,如 图 14-11 所 示 。 系 统 
日 志 ,; 比 如 mail. log .sudo. log, dmesg 等 通过 Rsyslog 发 送 。 业 务 日 志 采 用 Flume, 容 器 日 
志 则 使 用 Heka 和 Fluentd。 汇 总 到 各 个 机 房 的 Kafka 集群 后 ,粗略 地 解析 后 汇总 到 中 央 
Kafka, 再 通过 Logstash 集群 解析 后 存 入 ElasticSearch。 同 时 ,监控 数据 通过 Statsd 发 送 到 
内 部 的 监控 平台 ,便于 后 续 的 通知 和 报警 。 

随 着 业务 线 日 志 的 逐步 接 入 ,这 个 平台 已 经 增长 成 为 单 日 处 理 60 亿 条 日 志 /6TB 数据 
的 庞大 平台 。 


14.5.3 云 环境 构建 


云 环 境 构 建 共 经 历 了 三 次 比较 大 的 变更 ,主要 从 兼容 性 、 公 司 内 的 发 布 流 程 和 开发 人 员 
易 用 性 的 角度 考量 ,逐步 演进 。 
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e OpenStack+nova-docker+ VLAN; 
e Mesos 十 Marathon 十 Docker(--net 王 host) 十 随机 端口 ; 
e Mesos+ Marathon+ Docker+Calico, 
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FA 14-10 ”典型 的 Mesos 十 Docker 结构 
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图 14-11 日 志平 台 的 结构 





1. 容器 当 作 虚拟 机 用 
容器 的 使 用 和 行为 尽量 模拟 虚拟 机 是 第 一 阶段 考虑 的 重点 ,同时 还 要 考虑 到 发 布 系统 
改造 的 成 本 ,OpenStack 提供 的 nova-docker 自然 成 了 首选 。 在 此 基础 上 为 容器 提供 外 部 可 
访问 的 独立 IPVLAN。nova-docker 和 nova-network 已 经 提供 了 大 部 分 功能 ,整合 的 速度 


也 比较 快 。 
容器 启动 后 会 有 多 个 进程 .如 salt-minion 和 sshd, 这 样 使 用 者 可 以 ssh 登录 到 容器 内 


第 14 章 容器 即 服务 人 


debug ,而 部 署 的 工作 则 交 给 salt 统一 管理 。 

2. 以 服务 为 核心 

逐渐 强化 以 服务 为 核心 的 应 用 发 布 和 管理 流程 ,向 统一 的 服务 树 靠 拢 。 在 第 一 阶段 成 
果 的 基础 上 ,完善 服务 树 的 结构 和 规则 ,为 后 面 打通 监 控 树 .应 用 树 等 模块 做 好 充分 的 准备 。 

同时 ,容器 开始 从 OpenStack 十 nova-docker 的 结构 向 Mesos + Marathon + Docker if 
移 ,整套 环境 的 发 布 压缩 到 了 7 一 9 分 钟 , 其 中 还 包含 healthcheck 的 时 间 , 还 有 深入 优化 的 
空间 ,如 图 14-12 所 示 。 
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图 14-12 以 服务 为 核心 的 容器 结构 


(1) 整个 服务 放 在 QAECI 中 维护 ,发 布 时 根据 拓扑 排序 后 的 结果 选择 自动 切换 并 行 、 
串 行 发 布 。 

C2) 代码 和 配置 在 容器 启动 后 再 拉 取 ,减少 维护 镜像 的 成 本 ,方便 升级 运行 环境 ,比如 
升级 JDK 或 Tomcat。 

G) 服务 端口 全 部 随机 生成 ,并 通过 环境 变量 注入 到 依赖 的 容器 中 并 替换 配置 ,这 样 就 
解决 了 一 net 二 host 模式 下 端口 分 配 的 问题 。Dubbo 服务 注册 的 是 宿主 机 的 IP 和 PORT, 
如 果 是 Bridge 模式 的 话 ,要 注册 宿主 机 的 IP 和 映射 的 PORT。 

(4) 适当 缓存 编译 后 的 代码 ,减少 重复 构建 的 时 间 浪 费 。 

(5) Openresty + lua 脚本 动态 proxy_pass 到 集群 内 的 Tomcat, 外 部 即 可 通过 泛 域名 
的 方式 访问 Marathon 发 布 的 应 用 。 例 如 ,appl. marathon. corp. qunar. com 即 可 访问 到 
appl 对 应 的 Web IRF. 

(6) 修改 Logback 和 Tomcat 的 配置 ,所 有 日 志 都 输出 到 Stdout 和 Stderr, 并 附带 文件 
名 前 缀 做 区 分 。 并 通过 Heka. 配 合 fields from_env 区 分 是 哪 一 个 Mesostask 的 日 志 , 统 一 
发 向 日 志平 台 汇 总 和 监控 。 

3. 快捷 服务 

为 容器 分 配 固定 了 了 ,打通 集群 内 外 的 服务 通信 ,让 开发 人 员 无 障碍 的 访问 容器 。 为 此 
引入 了 Calico 作为 解决 方案 。Calico 整合 Mesos 比较 简单 ,通过 Mesos Slave 启动 时 指定 
—modules 和 -isolation 即 可 使 用 。 
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这 样 Mesos 在 执行 Docker 命令 的 时 候 , 所 有 的 请 求 都 被 Calico 容器 劫持 并 转发 给 
Docker Daemon, 同 时 给 容器 分 配 IP, 上 层 的 Marathon 只 需要 额外 添加 两 个 Env 配置 : 


CALICO_IP = auto| ip 

CALICO_PROFILE = test 

结合 自身 的 网 络 结构 ,在 交换 机 上 预 留 了 一 个 IP 段 ,全 部 指向 Calico 的 两 台 Gateway, 
转发 到 Mesos 集群 内 部 ,如 图 14-13 所 示 。 
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外 部 服务 访问 Mesos 集 群 内 容器 
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一 -一 -一 容器 间 互 相 访问 


图 14-13 Mesos 管理 整个 容器 集群 


同时 整合 去 哪儿 网 内 的 DNSDB 服务 ,将 容器 的 名 称 和 IP 自动 注册 到 DNSDB 内 ,这 样 
全 公司 的 人 都 可 以 访问 到 这 个 容器 ,打通 集群 内 外 的 通信 。 对 于 一 些 有 特殊 要 求 的 情况 ,如 
开发 机 的 名 称 必须 符合 一 定 的 命名 规则 ,通过 传 入 一 hostname 就 可 以 模拟 一 台 开发 机 。 


14.6 本 章 小 结 


本 章 介 绍 了 CaaS,CaaS 是 指 将 服务 软件 封装 在 容器 中 ,根据 用 户 需 要 提供 灵活 高 效 的 容 
器 服务 。 阅 述 了 Kubernetes 和 Mesos 容器 调度 框架 ,分 析 了 SAE 容器 云 和 去 哪儿 网 容器 云 。 

Docker 的 出 现 使 得 构造 一 个 对 开发 和 运 维 人 员 更 加 开放 的 容器 PaaS 云 成 为 可 能 , 基 
于 容器 镜像 的 应 用 发 布 流程 不 仅 能 履 盖 整个 应 用 生命 周期 ,还 减少 了 经 典 PaaS 平台 对 应 
用 架构 /支持 的 软件 环境 服务 等 方面 的 诸多 限制 ,将 更 多 控制 力 交 还 给 开发 和 运 维 人 员 。 
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Spark 是 近年 来 发 展 较 快 的 分 布 式 并 行 数据 处 理 框 架 , 可 以 与 Hadoop 联合 使 用 ,增强 
Hadoop 的 性 能 。 同 时 ,Spark 还 增加 了 内 存 缓 存 \ 流 数据 处 理 、 图 数据 处 理 等 更 为 高 级 的 数 
据 处 理 能 力 。 本 章 介 绍 分 布 式 的 Hadoop 与 Spark 集群 搭建 和 基于 Docker 容器 的 Spark 
大 数据 云 架构 。 


15.1 分 布 式 Hadoop 与 Spark 集群 搭建 


15.1.1 Hadoop 集群 构建 


1. 设置 root 用 户 密码 ,以 root 用 户 登录 
设置 方式 如 下 : 






































sudo -s 

gedit /etc/lightdm/lightdm. conf 
[SeatDefaults ] 

greeter - session = unity - greeter 
user - session = Ubuntu 

greeter — show — manual - login = true 


allow- guest = false 


启用 root 账号 (Ubuntu 默认 是 禁止 root 账户 的 ) : 
sudo passwd root 


设置 好 密码 ,重启 系统 ,选择 login, 输 入 root, 再 输入 密码 就 可 以 了 。 
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2. 配置 机 器 的 /etc/hosts 和 /etc/hostname 并 安装 ssh 设置 三 台 机 器 之 间 的 无 密码 登录 


在 /etc/hostname 文件 中 把 三 台 机 器 的 hostname 分 别 设置 SparkMaster, SparkWorkerl 、 
SparkWorker2, 并 在 每 台 机 器 的 /etc/hosts 配置 如 下 IP 和 机 器 名 称 的 对 应 关系 : 

127.0.0.1 localhost 

192. 168. 32. 131 SparkMaster 


192. 168. 32. 132 SparkWorkerl 
192. 168. 32. 133 SparkWorker2 


# The following lines are desirable for IPv6 capable hosts 
::1 ip6 - localhost ip6 - loopback 

fe00::0 ip6 — localnet 

££00::0 ip6 - mcastprefix 

ff02::1 ip6 - allnodes 

££02::2 ip6 - allrouters 


[通过 ipconfig 查看 IP 地 址 。 

[以 ping Spark Workerl 查看 IP 是 否 配置 成 功 。 
下 面 配置 ssh 无 密码 登录 : 

(1) apt-get install ssh, 

(2) /etc/init. d/ssh start, 启 动 服务 。 

(3) ps -e |grep ssh, 验 证 服务 是 否 正 常 启动 。 
(4) 设置 免 密 登 录 ,生成 私 铀 和 公 钥 ， 


Z| 


Z| 





ssh- keygen -t rsa -P"" 


在 /root/.ssh 中 生成 两 个 文件 id_rsa 和 id_rsa. pub. id_rsa 为 私 钥 ,id_rsa. pub WA 
钥 , 将 公 钥 追加 到 authorized_keys 中 。 


cat ~/.ssh/id_rsa. pub >> ~/. ssh/authorized_keys 


将 SparkWorkerl ,SparkWorker2 的 id_rsa. pub 传 给 SparkMaster. 使 用 scp 命令 进行 复制 : 
Spark Workerl 上 : 


scp ~/.ssh/id_rsa. pub root@SparkMaster: ~ /. ssh/id_rsa. pub. SparkWorker1 
Spark Worker2 上 : 
scp ~/.ssh/id_rsa. pub root@SparkMaster: ~/. ssh/id_rsa. pub. SparkWorker2 


然后 将 公 钥 添加 到 SparkMaster 的 authorized_keys 中 。 
SparkMaster 上 : 


cd ~/.ssh 
cat id_rsa. pub. SparkWorker1 >> authorized_keys 
cat id_rsa. pub. SparkWorker2 >> authorized_keys 


再 将 SparkMaster 的 authorized_keys 复制 到 Spark Workerl ,SparkWorker2 的 . ssh 目录 下 : 


scp authorized_keys root@SparkWorkerl : ~/. ssh/authorized_keys 
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scp authorized keys root@SparkWorker2: ~/. ssh/authorized keys 


至 此 ,ssh 无 密 登录 已 配置 完毕 。 


ssh SparkMaster 
ssh SparkWorkerl 
ssh SparkWorker2 


在 一 台 机 器 上 可 以 登录 其 他 系统 ,无 须 密码 。 
3. 配置 Java 环境 
SparkMaster 上 : 


jdk — 8u25 — linux — i586. tar.gz 

mkdir /urs/lib/java 

cd /urs/lib/java 

tar — zxvf jdk — 8u25 - linux - i586. tar.gz 
gedit ~/. bashrc 


在 最 后 面 添 加 : 


# JAVA 

export JAVA_HOME = /usr/lib/java/jdk1.8.0_25 

export JRE_HOME = $ {JAVA_HOME}/jre 

export CLASS_PATH = . : $ {JAVA_HOME}/lib: $ {JRE_HOME}/lib 

export HADOOP_HOME = /usr/local/hadoop/hadoop - 2. 6. 0 

export HADOOP_COMMON_LIB_NATIVE_DIR= $ HADOOP_INSTALL/lib/native 
export HADOOP_OPTS = " - Djava. library. path= $ HADOOP_INSTALL/lib" 
export SCALA_HOME = /usr/lib/scala/scala— 2.11.4 

export SPARK_HOME = /usr/local/spark/spark- 1. 2.0- bin- hadoop2. 4 
export IDEA_HOME = /usr/local/idea/idea - IC- 139.659. 2 

export PATH= $ {IDEA_HOME}/bin: $ {SPARK_HOME}/bin: $ {SCALA_HOME}/bin: $ {HADOOP_HOME}/bin: 
$ {JAVA_HOME}/bin: $ PATH 


source ~/. bashrc, 使 配置 生效 。 
Java -version 可 查看 版 本 号 ,可 验证 是 否 成 功 。 
在 SparkWorkerl、SparkWorker2 上 以 同样 的 方法 配置 ,也 可 通过 scp 复制 。 





scp - r /usr/lib/java/jdk1.8.0_25 root@SparkWorker1:~/usr/1ib/java/ 
scp - r /usr/lib/java/jdk1.8.0_25 root@SparkWorker2:~ /usr/lib/java/ 
scp ~/. bashrc root@SparkWorkerl : ~/. bashrc 
scp ~/. bashrc root@SparkWorker2: ~/. bashrc 


复制 完成 后 ,在 Spark Worker] ,SparkWorker2 上 source ~/. bashre 使 配置 生效 。 
4. 配置 Hadoop 环境 
SparkMaster 上 : 


hadoop — 2. 6. 0. tar. gz 

mkdir /urs/lib/hadoop 

cd /urs/lib/hadoop 

tar — zxvf hadoop - 2. 6. 0. tar. gz 
cdhadoop — 2. 6. 0 
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mkdir dfs 
cd dfs 
mkdir name 
mkdir data 
od.. 
mkdir tmp 


接 下 来 开始 修改 Hadoop 的 配置 文件 。 首 先进 入 Hadoop 2. 6. 0 配置 文件 区 : 
cd etc/hadoop 


(1) 修改 配置 文件 hadoop-env. sh, 在 其 中 加 入 JAVA_HOME, 指 定安 装 的 JAVA_ 
HOME。 


# The java implementation to use. 
export JAVA_HOME = /usr/1ib/java/jdk1.8.0_25 


(2) 修改 配置 文件 yarn-env. sh, 在 其 中 加 入 JAVA_HOME, 


#ł some Java parameters 

export JAVA_HOME = /usr/1ib/java/jdk1.8.0_25 
if [ " $ JAVA_HOME” != "" ]; then 

# echo "run java in $ JAVA_HOME" 

JAVA_HOME = $ JAVA_HOME 

fi 


(3) 修改 配置 文件 mapred-env. sh ,在 其 中 加 入 JAVA_HOME, 


# export JAVA_HOME = /home/y/1ibexec/jdk1.6.0/ 
export JAVA_HOME = /usr/1ib/java/jdk1.8.0_25 


export HADOOP_JOB_HISTORYSERVER_HEAPSIZE = 1000 


export HADOOP_MAPRED_ROOT_LOGGER = INFO, RFA 


(4) 修改 配置 文件 slaves, 设置 Hadoop 集群 中 的 从 节点 为 SparkWorkerl 和 
SparkWorker2 。 


SparkWorker1 
SparkWorker2 


(5) 修改 配置 文件 core-site. xml, 


<?xml version = "1.0" encoding = "UTF - 8"?> 

<?xml — stylesheet type = "text/xs1" href = "configuration. xsl"?> 
ges 

Licensed under the Apache License, Version 2.0 (the "License" ); 
you may not use this file except in compliance with the License. 
You may obtain a copy of the License at 


http://www. apache. org/licenses/LICENSE — 2.0 


Unless required by applicable law or agreed to in writing, software 
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distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 


==% 
<! -- Put site- specific property overrides in this file. 一 一 > 
< configuration > 

<property> 


<name> fs. defaultFS </name > 
< value > hdfs://SparkMaster:9000 </value > 
<description> The name of default file system</description> 
</property> 
<property> 
< name > hadoop. tmp. dir </name > 
< value >/home/local/hadoop/hadoop - 2. 6. 0/tmp </value > 
<description>A base for other temporary directories </description> 
</property> 
</configuration> 


(6) 修改 配置 文件 hdfs-site. xml。 


<?xml version= "1.0" encoding = "UTF - 8"?> 

<?xml — stylesheet type = "text/xsl" href = "configuration. xsl"?> 
== 

Licensed under the Apache License, Version 2.0 (the "License" ) ; 
you may not use this file except in compliance with the License. 
You may obtain a copy of the License at 


http://www. apache. org/1icenses/LICENSE - 2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

-=--> 


<! -- Put site- specific property overrides in this file. --> 


< configuration > 
<property> 
<name> dfs. replication </name > 
<value > 2 </value> 
</property> 
< property > 
< name > dfs. namenode. name. dir </name > 
<value >/usr/1local/hadoop/hadoop - 2. 6. 0/dfs/name </value > 
</property> 
<property> 
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<name > dfs. datanode. data. dir </name > 
< value >/usr/local/hadoop/hadoop - 2. 6. 0/dfs/data</value > 
</property> 
</conf iguration > 


(7) 修改 配置 文件 mapred-site. xml, 
复制 一 份 mapred-site. xml. template 命名 为 mapred-site. xml, 打 开 mapred-site. xml. 


cp mapred— site. xml. template mapred — site. xml 


<?xml version = "1. 0"?> 

<?xml — stylesheet type = "text/xsl" href = "configuration. xs1"?> 
q =-= 

Licensed under the Apache License, Version 2.0 (the "License" ); 
you may not use this file except in compliance with the License. 
You may obtain a copy of the License at 


http://www. apache. org/licenses/LICENSE - 2. 0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

==> 


<! -- Put site- specific property overrides in this file. --> 


< configuration > 
<property > 
<name > mapreduce. framework. name </name > 
<value > yarn</value > 
</property> 
</conf iguration> 


(8) 修改 配置 文件 yarn-site. xml, 


<?xml version = "1. 0"?> 

= 

Licensed under the Apache License, Version 2.0 (the "License" ); 
you may not use this file except in compliance with the License. 
You may obtain a copy of the License at 


http://www. apache. org/1licenses/LICENSE — 2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

==> 
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< configuration > 

<! -- Site specific YARN configuration properties 一 一 > 
<property> 
< name > yarn. resourcemanager. hostname </name > 
<value > SparkMaster </value > 
</property> 
<property> 
< name> yarn. nodemanager. aux — services </name > 
< value > mapreduce_shuffle </value > 
</property> 

</configuration> 


hadoop-env.sh~ mapred-site.xml 
hadoop-metrics2.properties mapred-site.xml- 
hadoop-metrics.properties mapred-site.xml.template 


hadoop-policy.xml slaves 

hdfs-stte.xml slaves~ 

hdfs-site.xml~ ssl-cltent.xml.example 
httpfs-env.sh ssl-server.xml.example 
httpfs-log4j.properties yarn-env.cnd 
httpfs-signature.secret yarn-env.sh 
httpfs-site.xml yarn-env.sh~ 

kms-acls. xml yarn-site. xml 
kms-env.sh yarn-site. xml- 


root@sparkMaster : /usr/Local /hadoop/hadoop-2. 
root@sparkéaster: /usr/local /hadoop/hadoop-2. 
root@SparkMaster: /usr/local /hadoop/hadoop-2. 
root@SparkMaster : /usr/Local /hadoop/hadoop-2. 
root@sparkMaster: /usr/local /hadoop/hadoop-2. 
root@sparkMaster: /usr/local /hadoop/hadoop-2. 
root@sparkMaster: /usr/local /hadoop/hadoop-2. 
1 


-B/etc/hadoop# gedit yarn-env.sh 
-8/etc/hadoop# gedit mapred-env.sh 
-8/etc/hadoop# gedit hadoop-env.sh 
-8/etc/hadoop# gedit slaves 
-8/etc/hadoop® gedit core-site.xml 
.8/etc/hadoop# gedit hdfs-site.xml 
-0/etc/hadoop® gedit mapred-site.xm 





root@sparkmaster: /usr/local/hadoop/hadoop-2.6.0/etc/hadoop# gedit yarn-site.xml 
root@SparkMaster: /usr/local/hadoop/hadoop-2.6.9/etc/hadoop# ls 
capacity-scheduler. xml kms -log4j.properties 

conftauratton.xst kms-site.xml 


建议 使 用 scp 命令 把 SparkMaster 上 安装 和 配置 的 Hadoop 的 各 项 内 容 复 制 到 
SparkWorkerl 和 SparkWorker2 E. 


5. 启动 并 验证 Hadoop 分 布 式 集群 


(1) 格式 化 hdfs 文件 系统 。 
SparkMaster E. 


root @ SparkMaster: /usr/local/hadoop/hadoop - 2. 6. 0/binłł hadoop namenode - format 


(2) 进入 sbin 中 启动 hdfs, 执 行 如 下 命令 : 
root @SparkMaster : /usr/local/hadoop/hadoop - 2. 6. 0/sbin# ./start - dfs. sh 


此 时 发 现在 SparkMaster 上 启动 了 NameNode fil SecondaryNameNode, 
在 SparkWorkerl 和 SparkWorker2 上 均 启 动 了 DataNode。 


roote@sparkMaster:/usr/tocat/hadoop/hadoop-2.6.9/sbtn# jps 
17842 Ips 

17433 NameNode 

17740 SecondaryNameNode 

root@SparkWorker1: /usr/local/hadoop/hadoop-2.6.0/dts# jps 
9269 Ips 

9159 DataNode 
root@Sparkworker2:/usr/local/hadoop/hadoop-2.6.0/dfs# jps 
9225 DataNode 

9327 Ips 


每 次 使 用 hadoop namenode -format 命令 格式 化 文件 系统 的 时 候 会 出 现 一 个 新 的 
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namenodeId, 需 要 把 自 定 义 的 dfs 文件 夹 的 data 和 name 文件 夹 的 内 容 清空 。 
SparkWorkerl 和 SparkWorker2 也 要 删 掉 。 

此 时 访问 http://SparkMaster: 50070, 登录 Web 可 以 查看 HDFS 集群 的 状况 ,如 
图 15-1 所 示 。 


DNamenode information 





© |D sparkmaster:soo 





Hadoop 





Datanode Information 


In operation 
Non Block 

Last Admin ors pool Failed 
Node contact State Capacity Used Used Remaining Blocks used Volumes Versiot 
SparkWorkerl 1 in 37.92GB 24 648 31.4468 o 24KB 0 2.6.0 
(192.168.32.132:50010) Service KB cB (0%) 
‘SparkWorker2 1 in 37.92GB 24 65 31.42 GB 0 24KB 0 2.6.0 
(192.168.32.133:50010) Service KB GB (0%) 


Decomissioning 


Under Replicated Blocks 
Node Last contact Under replicated blocks Blocks with no live replicas In files under construction 


图 15-1 Web 查看 HDFS 集群 情况 
(3) 启动 yarn 集群 。 
root @SparkMaster: /usr/local/hadoop/hadoop - 2. 6. 0/sbin# ./start - yarn. sh 


使 用 jps 命令 可 以 发 现 SparkMaster 机 器 上 启动 了 ResourceManager 进程 。 


root@Sparkmaster: /usr/local/hadoop/hadoop-2.6.0/sbin# jps 
17954 ResourceManager 

18214 Ips 

17433 NameNode 

17748 SecondaryNameNode 


而 在 SparkWorkerl 和 SparkWorker2 上 则 分 别 启动 了 NodeManager 进程 。 


root@Sparknorker1: /usr/local/hadoop/hadoop-2.6.0/dfs# jps 
9445 NodeManager 

9159 DataNode 

9577 Ips 


root@sparkwWorker2: /usr/Local/hadoop/hadoop-2.6.0/dfs# jps 
9639 Ips 

9225 DataNode 

9502 NodeManager 


章 大 数据 云 架构 搭 
第 15 章 大 数据 云 架构 搭建 es 


在 SparkMaster 上 访问 http://SparkMaster: 8088 可 以 通过 Web 控制 台 查 看 
ResourceManager 运行 状态 ,如 图 15-2 所 示 。 





{J All Applications 其 





ae 


Ce hacdoop All Appli 


sparkmaster:0! 























[ ”Cluster Cluster Metrics 

About Apps Apps Apps Apps Containers Memory Memory Memory 

Nodes Submitted Pending Running Completed Running Used Total Reserved 

Anpications o o o o o oB 16GB 0B 
NEW 
NEW_SAVING Show 20 "|entries 
SUBMITTED l 
ACCEPTED ID™ User > Name © Application Type © Queue ©  StartTime ° 
RUNNING i 
a No data avail 
FAILED Showing 0 to 0 of 0 entries 
KILLED 

Scheduler 

» Tools 


图 15-2 Web 控制 台 查看 ResourceManager 运行 状态 


在 SparkMaster 上 访问 http://SparkWorkerl: 8042, 可 以 通过 Web 控制 台 查 看 
SparkWorkerl 上 的 NodeManager 运行 状态 。 
接 下 来 使 用 mr-jobhistory-daemon. sh 启动 JobHistory Server: 
root@sparkMaster: /usr /local /hadoop/hadoop-2.6.9/sbin# . /nr-Jjobhistory-daenon. sh 
start historyserver 
starting historyserver, logging to /usr/local/hadoop/hadoop-2.6.0/logs/mapred-ro 


ot-historyserver-SparkMaster ,out | 
raotasnarkMaster: /usr /Local /hadoon /hadaan-7.6.0/sbint 


启动 后 可 以 通过 http://SparkMaster:19888 在 Web 控制 台 上 看 到 JobHistory 中 的 任 
务 执行 历史 信息 ,如 图 15-3 所 示 。 


parkmaster:19888/jobhistory ~ @) | Gooale ae 


Q HERBE JobHistory Logged in as: dr 


~ Application Retired Jobs 











About = —— = = 
Jobs [show 20 z| entries Search: 
Submit Start Finish Job Maps Maps duce 
* Tools Time Time Time ip Name User Queue State Total Completed 党 Complet 
No data available in table 
Submit | Start Finish Jot Name | User | Queue State Maps Maps Comp Reduces ` Reduces 


| showing o to 0 of o entries First Previous Next Las 


15-3 Web 控制 台 查 看 JobHistory 中 的 任务 执行 
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结束 historyserver 的 命令 如 下 所 示 : 


root@SparkMaster: /usr/local/hadoop/hadoop-2.6.6/sbin# ./mr-jobhistory-daemon.sh 
stop historyserver 

stopping historyserver 

reot@soarkMaster ;/usr/local/hadoon/hadoon-2.6.0/sbin# 


(4) 验证 Hadoop 分 布 式 集群 。 
首先 在 hdfs 文件 系统 上 创建 两 个 目录 ,创建 过 程 如 下 所 示 : 
root @ SparkMaster:/usr/local/hadoop/hadoop - 2. 6. 0/bin 井 hadoop fs - mkdir - p / 


data/wordcount 
root @SparkMaster : /usr/local/hadoop/hadoop - 2.6.0/bin} hadoop fs -mkdir - p /output/ 


Hdfs 中 的 /data/wordcount 用 来 存放 Hadoop 自 带 的 WordCount 例子 的 数据 文件 , 程 
序 运 行 的 结果 输出 到 /output/wordcount 目录 中 , 透 过 Web 控制 可 以 发 现成 功 创建 了 两 个 
文件 夹 ,如 图 15-4 所 示 。 


or I 


€ [© sparkmaster-50070/explorer ntml#/ + @] (~ coogie ae 


Browse Directory 





1 Go 
CZD. owner crou Size Replication Block Size Name 
drwxr-xr-x root supergroup OB 0 oB data 
drwxr-xr-x root supergroup 08 0 oB output 
drwxrwx— root supergroup 08 0 0B tmp 


图 15-4 Web 控制 台 查 看 创建 的 文件 夹 
接 下 来 将 本 地 文件 的 数据 上 传 到 HDFS 文件 夹 中 : 


root@SparkMaster: /usr/local/hadoop/hadoop - 2.6.0/bin# hadoopfs - put ../etc/hadoop/ * .xml 
/data/wordcount/ 


通过 Web 控制 可 以 发 现成 功 上 传 了 文件 ,如 图 15-5 所 示 。 
也 可 以 通过 Hadoop 的 HDFS 命令 在 控制 命令 终端 查看 信息 : 


root @SparkMaster: /usr/local/hadoop/hadoop - 2. 6. 0/binłł hadoop fs - ls /data/wordcount/ 





- 2 root supergroup 4436 2015-01-07 19:20 /data/wordcount/capac 
juler.xml 
-rw-r--r-- 2 root supergroup 1161 2015-01-07 19:20 /data/wordcount/core 


site.xml 


-rw-r--r-- 
p-policy.xml 
-rw-r--r-- 
site.xml 
-rw-r--r-- 
s-site.xml 
-rw-r--r-- 
cls.xml 
-rw-r--r-- 
ite.xml 
-rw-r--r-- 
d-site.xml 
-rw-r--r-- 
site.xnl 


2 root 


2 root 


2 root 


2 root 


2 root 


2 root 


2 root 


supergroup 
supergroup 
supergroup 
supergroup 
supergroup 
supergroup 


supergroup 


9683 2015-01-07 


1185 2015-01-07 


620 2015-01-07 


3523 2015-01-07 


5511 2015-01-07 


864 2015-01-07 


921 2015-01-07 


raat@snarkMaster: /usr /lacal /hadonn /hadnnn-7 6 A/hin# 


19:20 


19:20 


19:20 


19:20 


19:20 


19:20 


19:20 
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/data/wordcount/hadoo 


/data/wordcount/hdfs- 


/data/wordcount/httpf 


/data/wordcount/kns-a 


/data/wordcount/kns-s 


/data/wordcount/mapre 


/data/wordcount /yarn- 








Browse Directory 


/data/wordcount 


Permission Owner Group 


-TW 


wer 


wer 


-rw-r-r- 


“wet 


-Wr 


TW- 


-rwr-r- 


“Wer 


root 


supergroup 


supergroup 


supergroup 


supergroup 


supergroup 


supergroup 


supergroup 


supergroup 


supergroup 


图 15-5 Web 控制 查看 上 传 文件 


Block 
Replication Size 

2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 
2 128 MB 


运行 Hadoop 自 带 的 WordCount 例子 ,执行 如 下 命令 : 


root @ SparkMaster: /usr/local/hadoop/hadoop - 2. 6. 0/bin # hadoop jar 


output/wordcount 


在 运行 作业 的 过 程 中 也 可 以 查看 Web 控制 台 的 信息 ,如 


capacity 


schedulerxml 


core-site xml 


hadoop-policyxml 


hdfs-site xml 


httpfs-site xml 


kms-acls.xml 


kms-site.xml 


mapred-site .xml 


yarn-site.xml 





程序 运行 结束 后 可 以 执行 以 下 命令 查看 运行 结果 ,如 图 15-7 所 示 。 


15-6 所 示 。 





. ./share/hadoop/ 
mapreduce/hadoop — mapreduce - examples - 2. 6. 0. jar wordcount /data/wordcount / 


root @ SparkMaster : /usr/local/hadoop/hadoop - 2.6. 0/bin} hadoop fs - cat /output/wordcount/ 
part — r — 00000 | head 
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rootesparkMaster:/usr/LocaL/hadoop/hadoop-2.6.9/bin# hadoop fs -cat /output/word 
count/part-r-00000 |head 

Java HotSpot(TM) Client VM warning: You have loaded Library /usr/local/hadoop/ha 
doop-2.6.0/lib/native/libhadoop.so.1.0.@ which might have disabled stack guard 
The VM will try to fix the stack guard now. 

It's highly recommended that you fix the Library with ‘execstack -c <libfile>', 
or link it with '-z noexecstack’. 

15/01/07 19:30:11 WARN util.NativeCodeLoader: Unable to load native-hadoop libra 


ry for your platform... using builtin-java classes where applicable 
man 18 

"AS 9 

"License"); 9 

"alice, bob 18 
&quot;kerberos&quot;. 1 
&quot;simple&quot; 1 
'HTTP/' 1 

‘none’ 1 

‘random’ 1 

sast i 


cat: Unable to write to output stream. 
rootesparkMaster:/usr/LocaL/hadoop/hadoop-2.6.6/bin# ff 





Aeroron x EE 


L sparkmaster s088/cluste 


Or HEEH m All Appli: 


~ Cluster Cluster Metrics 











About Apps | Apps Apps Apps Containers Memory Memory | Memory 
Nodes Submitted Pending Running Completed Running Used Total Reserved 
— 1 o 1 o 10 1168 1668 0B 
NEW_SAVING 20 
Se pe UserName AppIKaLIOn TYPE. Queue >| star 
puuro application 1420686254788000) r re 
Enge oot word MAPREDUCE delat Thu, 
=A 03:2 
Scheduler GMT 


图 15-6 Web 控制 台 查 看 Hadoop 运行 状态 


npioron x EEE 

















[© sparkmaster sosa/clusce +) Me ce aA 
Q MECB All Appli: 
~ Cluster Cluster Metrics 

About Apps | Apps Apps Apps Containers Memory Memory Memory 

Nodes Submitted Pending Running Completed Running Used Total Reserved 

roe 1 o 1 0 10 1168 1668 08 

‘SUBMITTED nd 

Pesan ~ User Name Application Type 

RUNNING ai : 2 ER nm tan 
application 1420686254788_0001 root word MAPREDUCE default Thad 

ae = te 

Ph = 
Tos [Brewing aH 10t entries ee 





‘Total Resource Preempted: <memory:0, vCore: 
‘Total Number of Non-AM Containers 0 






‘Total Number of AM Containers Preempted: 0 
Resource Preempted from Current Attempt: <memory:0, vCores:0> 
Number of Non-AM Containers Preempted from 0 


Current Attempt: 
Aggregate Resource Allocation: 702510 MB-seconds, 603 
veore-seconds 
ApplicationMaster 
‘Attempt Number Start Time Node Logs | 
1 7-Jan-2015 19:24:35 ‘SparkWorker1:8042 logs 


图 15-7 Web 控制 台 查 看 运行 结果 


可 以 通过 Web 控制 查看 JobHistory 历史 了 


> rip ho kit 
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[ 作 记 录 , 如 图 15-8 所 示 。 











JobHistory 





+ @| (> Google 


Q 合 








Retired Jobs 


JobHistory 

















~ Application 
About [ 
sobs [Show 20 -j entries 
» Tools Submit Start Time Finish job 10 Name User Queue crate 
Time > 人 Time + s $ kd 
2015.01.07 2015.01.07 2015.01.07 job 1420686254788 0001 word root default SUCCEI 
19:24:35 19:24:45 19:25:45 count 
PST PST PST 
Submit Time) Start Time Finish Time Job ID Name User | Queue State 
‘Showing 1 to 1 of 1 entries 


图 15-8 Web 控制 查看 JobHistory 历史 记录 


可 以 通过 Web 控制 查看 运行 结果 ,如 图 15-9 所 示 。 可 以 看 到 ,成 功 运行 了 WordCount 
作业 。 至 此 ,成 功 构 建 了 Hadoop 分 布 式 集群 并 完成 了 测试 。 








E MapReduce Job job_... % 











é [C sparkmaster: KJE c a a 
P Logged in as: drwho 
(Nerd MapReduce Job 
job_1420686254788 0001 
+ Application | Job Overview | 
~ Job | z word count 
Carn | root 
Counters | default 
Configuration 5 SUCCEEDED 
Map tasks : false 
Reduce tasks 
|: Wed Jan 07 19:24:35 PST 2015 
+ Tools j: Wed Jan 07 19:24:45 PST 2015 
l: Wed Jan 07 19:25:45 PST 2015 
Elapsed: 1mins, Osec 
Diagnostics: 
Average Map Time 38sec 
Average Shuffle Time 46sec 
Average Merge Time Osec 
Average Reduce Time Osec 
ApplicationMaster 
‘Attempt Number Start Time Node Logs | 
1 Wed Jan 07 19:24:41 PST 2015 SparkWorker1:8042 logs 
| Task Type Total Complete 
Map 9 9 
Reduce 1 a 
| Attempt Type Failed Killed Successful 
Maps o 3 2 
Reduces o 2 1 


图 15-9 Web 控制 查看 运行 结果 
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15.1.2 Spark 集群 构建 


1. 配置 Scala 
SparkMaster 上 : 


scala— 2.10.4. tgz 

mkdir /usr/lib/scala 

cd /usr/lib/scala 

tar — zxvf scala 一 2.10.4.tgz 


相关 的 环境 变量 在 . bashrc 里 已 配置 。 

输入 scala -version 验证 是 否 成 功 。 

使 用 scp 命令 复制 到 SparkWorkerl 和 SparkWorker2 即 可 。 
2. 配置 Spark 

SparkMaster 上 : 

spark ~ 1. 6. 0 — bin- hadoop2. 6.0. tgz 

mkdir /usr/local/spark 


cd /usr/local/spark 
tar — zxvf spark - 1.6.0 - bin - hadoop2. 6. tgz 


相关 的 环境 变量 在 . bashre 里 已 配置 。 
进入 spark 的 conf AR: 

(1) 修改 slaves 文件 。 

首先 打开 该 文件 ,修改 为 : 


# A Spark Worker will be started on each of the machines listed below. 
SparkWorker1 
SparkWorker2 


(2) 配置 spark-env. sh, 
首先 把 spark-env. sh. template 复制 到 spark-env. sh: 


cp spark - env. sh. template spark — env. sh 


# Options read when launching programs locally with 

# ./bin/run- example or ./bin/spark - submit 

# — HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files 
# - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node 

4# — SPARK_PUBLIC_DNS, to set the public dns name of the driver program 
# 一 SPARK_CLASSPATH, default classpath entries to append 


export JAVA_HOME = /usr/1ib/java/jdk1.8.0_25 

export SCALA_HOME = /usr/lib/scala/scala- 2.10.4 
export HADOOP_HOME = /usr/local/hadoop/hadoop — 2.6.0 
export HADOOP_CONF_DIR= $ {HADOOP_HOME}/etc/hadoop 


第 15 章 大 数据 云 架构 搭建 i 


export SPARK MASTER IP= SparkMaster 
export SPARK WORKER MEMORY= 1g 


# Options read by executors and drivers running inside the cluster 


Spark Workerl 和 SparkWorker2 采用 同 SparkMaster 完全 一 样 的 Spark 安装 配置 ,在 
JEAN FH BER, KH scp 命令 复制 即 可 。 


3. 启动 Spark 分 布 式 集群 并 查看 信息 


(1) 启动 Hadoop 集群 ,在 SparkMaster 使 用 ips 命令 ,具体 操作 过 程 中 可 以 看 到 如 下 
进程 信息 : 


root @SparkMaster : /usr/local/hadoop/hadoop - 2. 6. 0/sbin# ./start - dfs. sh 

root @ SparkMaster : /usr/local/hadoop/hadoop - 2. 6. 0/sbin# ./start - yarn. sh 

root @ SparkMaster: /usr/local/hadoop/hadoop - 2. 6. 0/sbin # ./mr - jobhistory - daemon. sh 
start historyserver 


17954 ResourceManager 
18819 JobHtstoryServer 
17433 Nanetiode 

20425 Ips 

17740 SecondaryNaneNode 


root@Sparkworker1: /usr/local/hadoop/hadoop-2.6.0/dfs# jps 
9445 NodeManager 

9159 DataNode 

11228 Ips 

root@SparkWorker1: /usr/local/hadoop/hadoop-2.6.0/dfs# 目 


root@Sparkhorker2: /usr/local /hadoop/hadoop-2.6.0/dfs# jps 
9225 DataNode 

11612 Jps 

9502 NodeManager 

root@Sparkhorker2: /usr/local/hadoop/hadoop-2.6.0/dfs# I 


(2) 启动 Spark 集群 。 
在 Hadoop 集群 成 功 启动 的 基础 上 ,启动 Spark 集群 需要 使 用 Spark 的 sbin 目录 下 的 


start-all. sh. 
root @ SparkMaster: /usr/local/spark/spark - 1.6. 1- bin- hadoop2.6.0/sbin# ./start- all. sh 


17954 ResourceManager 
18819 JobHistoryServer 
20568 Master 

17433 NameNode 

17748 Secondar yNaneNode 


root@SparkWorker1: /usr/local/hadoop/hadoop-2.6.0/dfs# jps 
11444 Worker 

9445 NodeManager 

11541 Ips 

9159 DataNode 

root@Sparkworker1: /usr/local/hadoop/hadoop-2.6.0/dfs# 


此 时 的 SparkWorkerl 和 SparkWorker2 会 出 现 新 的 进程 Worker. 


root@sparkworker2: /usr/local/hadoop/hadoop-2.6.0/dfs# jps 
11829 Worker 

11927 Ips 

9225 DataNode 

9502 NodeManager 

root@SparkWorker2: /usr/local/hadoop/hadoop-2.6.0/dfs# 


可 以 进入 Spark 集群 的 Web 页面 ,访问 http: //SparkMaster;8080. w K 15-10 所 示 。 
可 以 看 到 ,有 两 个 Worker 节点 及 这 两 个 节点 的 信息 。 
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‘Spark Master at spa... 其 


© Gi sparkmaster 3i + @| (Me coooe ae 


Spark’ Spark Master at spark://SparkMaster:7077 


URL: spark:/SparkMaster:7077 
Workers: 2 

Cores: 2 Total, 0 Used 

Memory: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 








Status: ALIVE 
Workers 
' 1 
id Address State Cores Memory 
worker-20150107223506-SparkWorker!-37928 SparkWorkerl:37926 ALIVE 1(0Used) 1024.0 MB (0.0 B Used) 
worker-20150107223512-SparkWorker2-37694 ‘SparkWorker2:37694 ALIVE 1(0 Used) 1024.0 MB (0.0 B Used) 


Running Applications 
ID Name Cores Memory per Node Submitted Time User State Duration 


Completed Applications 
ID Name Corws Memory per Node Submitted Time User State Duration 


图 15-10 Web 控制 台 Spark Workers 节点 信息 


此 时 进入 Spark 的 bin 目录 ,使 用 spark-shell 控制 台 。 


r localhost:44314 with 267.3 MB RAM, BlockManagerId(<driver>, localhost, 4 
15/01/07 22 52 INFO storage.BlockManagermMaster: Registered BlockManager 
15/01/07 22:38:52 INFO repl.SparkILoop: Created spark context.. 

Spark context avatlable as sc. 






scala> I 
root @ SparkMaster: /usr/local/spark/spark — 1.6.1- bin- hadoop2. 6. 0/binłł spark - shell 
此 时 进入 Spark 的 shell 世界 ,根据 输出 的 提示 信息 ,可 以 通过 http: //SparkMaster; 
4040 从 Web 的 角度 看 一 下 SparkUI 的 情况 ,如 图 15-11 所 示 。 


i JSparkshell-Spark J... 3° Eg 
+ Œ) [H> coogk aa 


rs 
Spa Jobs Stages Storage Environment Executors Spark shell appication UI 








é [C sparkmast 








Spark Jobs ”) 


Total Duration: 51s 
Scheduling Mode: FIFO 
Active Jobs: 0 
Completed Jobs: 0 
Failed Jobs: 0 


Active Jobs (0) 
Jobid Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 


Completed Jobs (0) 
Job id Description Submitted Duration Stages: Succeeded Total Tasks (for all stages): Succeeded/Total 


Failed Jobs (0) 
Job Id Description Submitted Duration Stages: SucceedediTotal Tasks (for all stages): Succeeded/Total 


图 15-11 Web 控制 台 运 行 job 
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同时 ,也 可 以 看 一 下 Executors, wf 15-12 所 示 。 
| BrowsingHDFS ~ Allcontainers runnin. ™ Spark o o X 








[© sparkmaster:1040/executors) + ©) (B~ Coste a A 

Spark Jobs Stages Storage Environment | Executors Spark shell application UI 

Executors (1) 

Memory: 0.0 B Used (267.3 MB Total) 

Disk: 0.0 B Used 

Executor RDD Memory Disk Active Failed Complete Total Task Shuffle Shuffle Thread 

1D Address Blocks Used Used Tasks Tasks Tasks Tasks Time Input Read Write Dump 

<driver> localhost:44314 0 00B/ 008 0 0 o 0 Oms 00B 00B 00B Thread 
267.3 Dump 
MB 


图 15-12 Web 控制 台 Executors 
至 此 ,Spark 集群 搭建 成 功 。 
4. 测试 Spark 集群 
把 Spark 安装 包 下 文件 README. txt 上 传 到 HDFS。 


root@SparkMaster:/usr/local/spark/spark — 1.6.1- bin- hadoop2. 6 łł hadoop fs - put README. md 
/data 


通过 HDFS 的 Web 控制 台 可 以 发 现成 功 上 传 了 文件 ,如 图 15-13 所 示 。 


aovroror x M E E 3 
ei h 





Hadoop 





Browse Directory 


Idata Gol 
Permission Owner Group Size Replication Block Size Name 
“Wer root supergroup 3.56KB 2 128 MB README.md 
drwxr-xr-x root supergroup 0B 0 oB wordcount 


图 15-13 Web 控制 台 查看 HDFS 文件 
使 用 MASTER=spark://SparkMaster:7077 . /spark-shell 命令 启动 Spark shell, 


root @ SparkMaster: /usr/local/spark/spark - 1. 6. 1- bin - hadoop2. 6/bin 井 MASTER = spark:// 
SparkMaster:7077 . /spark - shell 
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15/01/87 22:47:15 INFO storage.BlockManagerMasterActor: Registering block manage 
r SparkWorker1:373@8 with 267.3 MB RAM, BlockManagerId(1, SparkWorker1, 37308) 
15/01/07 22:47:15 INFO cluster.SparkDeploySchedulerBackend: Registered executor: 
Actor [akka. tcp: //sparkExecutor@SparkWorker2: 52921 /user /Executor#1248332899] wit 
h ID 8 
15/01/07 22:47: 
r SparkWorker 






1 INFO storage.BlockManagerMasterActor: Registering block manage 
40542 with 267.3 MB RAM, BlockManagerId(8, SparkWorker2, 40542) 


scala> 
接 下 来 通过 以 下 命令 读 取 刚 刚 上 传 到 HDFS 上 的 README. md 文件 : 


scala> val file = sc. textFile("hdfs://SparkMaster :9000/data/README. md") 


对 读 取 的 文件 进行 以 下 操作 : 


scala> val count = file. flatMap(line => line. split("")).map(word => (word, 1)). reduceByKey 
| 


file: org.apache.spark.rdd.RDD[String] = hdfs://SparkMaster :9000/data/README.md 
MappedRDD[1] at textFile at <console>:12 


scala> val count = file.flatmap(line => line.split(" ")).map(word => (word,1)).r 
educeBykey(_+_) 
15/01/07 22:53:53 INFO mapred.FileInputFormat: Total input paths to process : 1 
count: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceBykey = 
t <console>:14 


scala> E 


接 下 来 使 用 collect 命令 提交 并 执行 Job。 


scala> count.collect 

15/01/07 22:54:58 INFO spark.SparkContext: Starting job: collect at <console>:1 
15/01/07 22:54:58 INFO scheduler.DAGScheduler: Registering RDD 3 (map at <consc 
e>:14) 

15/01/07 22:54:58 INFO scheduler.DAGScheduler: Got job © (collect at <console>: 
7) with 2 output partitions (allowLocal=false) 


SPIRE IAT ANAL THIER nakadar RACE abak aas Fiat abenan Chane tfentiack st 








从 控制 台 可 以 看 到 程序 成 功 





集群 上 运行 ,如 图 15-14 所 示 。 














C spa ~C |I- hh a 4 
-一 一 Stages | Storage Environment Executors Spark shell appication UI 

Details for Stage 1 
Total task time across all tasks: 3 s 
Shuffle read: 1658.0 B 
» Show additional metrics 
Summary Metrics for 2 Completed Tasks 

Metric Min 25th percentile Median 75th percentile Max 

Duration 1s 1s 2s 2s 2s 

GC Time Oms Oms Oms Oms Oms 

Shuffle Read 458.0B 458.0B 1200.0B 1200.0 B 1200.0B 


(Remote) 


图 15-14 Web 控制 台 查看 Spark 集群 运行 


Aggregated Metrics by Executor 


Executor Task Total Failed Succeeded 
ID Address Time Tasks Tasks Tasks 
0 SparkWorker2:40542 2s 1 0 1 
1 SparkWorker1:37308 2s 1 0 1 
Tasks 
Executor ID / 
index ID Attempt Status Locality Level Host 
0 20 SUCCESS PROCESS LOCAL 0/ 
SparkWorker2 
1 3 0 SUCCESS PROCESS LOCAL 1/ 
‘SparkWorker1 
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Shuffle Shuffle 


Shuffle Shuffle Spill Spill 
Input Output Read Write (Memory) (Disk) 
0.0B 0.0B 458.0B 0.0B 00B 00B 
00B 00B 12000 00B 00B 00B 

B 

GC Shuffle 

Launch Time Duration Time Read Errors 
20150107 1s 458.0 B 
22:55:55 
2015/01/07 2s 1200.0B 
22:55:55 


ETT MIESE E 


和 [© sparkmaster:4040/stages/stage/?id-0&attempt=0 


+ | | bh 


ag 





Spaik® Jobs | Stages | Storage Environment Executors 


Details for Stage 0 


Total task time across all tas! 
Input: 3.6 KB 
Shuffle write: 4.6 KB 





1.8 min 


> Show additional metrics 
Summary Metrics for 2 Completed Tasks 


Spark shell application UI 


Metric Min 25th percentile Median 75th percentile Max 
Duration 54s 54s 55s 55s 55s 
GC Time 2s 2s 415 41s 4is 
Input 1822.0B 1822.0B 1823.0B 1823.0 B 1823.0B 
Shuffle Write 2.3 KB 2.3 KB 2.3 KB 2.3 KB 2.3 KB 
Aggregated Metrics by Executor 
Shuffle Shuffle 
Executor Task Total Failed Succeeded Shuffle Shuffle Spill Spill 
ID Address Time Tasks Tasks Tasks Input Output Read Write (Memory) (Disk) 
0 SparkWorker2:40542 56s 1 0 1 1822.0 0.0B 00B 23KB 00B 0.0B 
B 
1 SparkWorker1:37308 55s 1 0 1 1823.0 0.0B 00B 23KB 00B 0.0B 
B 
Tasks 
Locality Executor ID/ Launch GC Write Shuffle 
Index ID Attempt Status Level Host Time Duration Time Input Time Write Errors 
0 0 0 SUCCESS NODE LOCAL 0/ 2015/01/07 55s 41s 18220B 2.3 KB 
SparkWorker2 22:54:58 (hadoop) 


图 15-14 


上 述 信息 表明 程序 成 功 在 Spark 集群 上 运行 。 


( 续 ) 


YN 大 数据 云 服务 技术 架构 与 实践 





15.2 基于 Docker 大 数据 云 架 构 


15.2.1 简介 


大 数据 云 部 署 依托 于 Docker 容器 集群 ,机 组 间 通 过 Weave 搭建 互通 网 络 环境 , 如 


图 15-15 所 示 。 
192. 
Tomcat x Mongo n 
192.168.1.4 其 他 192.168.1.14 其 他 


物理 机 物理 机 
Docker Docker 











图 15-15 主机 间 Docker 通信 


Hadoop 集群 搭建 YARN 平台 ,基于 HDFS。 在 YARN 基础 上 搭建 SPARK 进行 业务 
处 理 , 大 数据 云 平 台 如 图 15-16 所 示 。 








Script SQL Java NoSQL Stream In-Memory | Search Others 
Scala 
Pig Hive Cascading | HBase Storm Spark 
Accumulo 


ISV 
Engines 


YARN: Data Operating System 


(Cluster Resource Management) 





HDFS 
(Hadoop Distributed File System) 


图 15-16 基于 HDFS 的 大 数据 云 平台 


环境 版 本 : 

(1) Ubuntu 14.04 

(2) jdk:1.8 

(3) docker:1.9.1 

(4) hadoop-2. 6. 0-cdh5. 5.0 
(5) scala-2. 10.4 
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(6) spark-1. 6. 1-bin-hadoop?2. 6. tgz 
(7) zookeeper-3. 4. 5-cdh5. 5. 0 
集群 部 署 所 有 权限 都 为 root, 请 以 root 权限 登录 启动 服务 。 


15.2.2 Docker 和 Weave 搭建 
1. Docker 搭建 


# apt-get install software — properties — common 
# apt-get install python 一 software — properties 
#ł add - apt — repository ppa:dotcloud/1xc - docker 
# apt -get update 

# apt -get install lxc - docker 

# docker pull ubuntu: 14.04 

# docker run -i -t ubuntu:14.04 /bin/bash 


2. Weave 搭建 
# sudo wget - 0 /usr/local/bin/weave https ://raw. githubusercontent. com/zettio/weave/master/ 
weave 


tf sudo chmod a + x /usr/local/bin/weave 
4f weave launch 


15.2.3 Hadoop 集群 镜像 搭建 


1. 搭建 准备 


进入 新 建 的 一 个 Docker 实例 ,将 上 述 软 件 包 下 载 并 解压 到 /opt/ 目 录 下 ,各 软件 包 安 装 
路 径 如 下 : 

e Hadoop: /opt/yarn/hadoop-2. 6. 0-cdh5. 5. 0 

e Spark; /opt/spark-1. 6. 1-cdh5. 5. 0 

e Scala; /opt/scala-2. 10. 4 


2. Hadoop 部 署 
C1) 配置 jdk 等 环境 变量 。 


# vim /etc/profile 添加 如 下 配置 (根据 所 安装 目录 修改 路 径 ) 

export JAVA_HOME = /usr/local/jdk 

export CLASS_PATH= $ JAVA_HOME/1ib: $ JAVA_HOME/jre/lib 

export SCALA_HOME = /opt/scala 

export SPARK_HOME = /opt/spark 

export PATH= $ PATH: $ JAVA_HOME/bin: $ SCALA_HOME/bin: $ SPARK_HOME/bin: $ SPARK_HOME/bin 


export HADOOP_DEV_HOME = /opt/yarn/hadoop — 2. 6. 0 — cdh5.5.0/ 
export PATH= $ PATH: $ HADOOP_DEV_HOME/bin 

export PATH= $ PATH: $ HADOOP_DEV_HOME/sbin 

export HADOOP_MAPARED_HOME= $ {HADOOP_DEV_HOME} 

export HADOOP_COMMON_HOME= $ {HADOOP_DEV_HOME} 
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export HADOOP_HDFS_HOME = $ {HADOOP_DEV_HOME} 

export YARN_HOME= $ {HADOOP_DEV_HOME} 

export HADOOP_CONF_DIR= $ {HADOOP_DEV_HOME} /etc/hadoop 
export HDFS_CONF_DIR= $ {HADOOP_DEV_HOME} /etc/hadoop 
export YARN_CONF_DIR= $ {HADOOP_DEV_HOME} /etc/hadoop 
# source profile 


(2) 配置 Host 和 Hostname. 


127.0.0.1 localhost 
192.168.1.2 master 
192.168.1.3 slavel 
192.168.1.4 slave2 
192. 168. 1. 13 slavel3 
192. 168. 1.14 slavel4 
192. 168. 1.15 slave15 


(3) 创建 数据 和 日 志 目 录 。 
Hadoop 需要 不 同 的 日 志 目 录 , 创 建 以 下 目录 : 
#ł mkdir - p /var/data/hadoop/hdfs/nn 


#ł mkdir — p /var/data/hadoop/hdfs/snn 
#łmkdir - p /var/data/hadoop/hdfs/dn 


(4) 在 Hadoop 目录 下 建立 Logs 目录 .并 设置 权限 。 


tt cd /opt/yarn/hadoop- 2.6. 0 - cdh5.5.0 
#ł mkdir logs 
# chmod g + w logs 





(5) 配置 core-site. xml, 
tt cd /opt/yarn/hadoop - 2. 6. 0 - cdh5.5.0/etc/hadoop 


添加 如 下 配置 , 


<configuration > 

< property > 

< name> fs. default. name </name > 

<value > hdfs: //master:9000 </value > 
</property> 

<property > 

< name > hadoop. http. staticuser. user </name > 
< value > hdfs </value > 

</property> 

<property> 

< name > hadoop. tmp. dir </name > 

< value >/hadoop/tmp </value > 

< description > A base for other temporary directories.</description> 
</property> 

</configuration> 
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(6) 配置 hdfs-site. xml。 
同上 ,添加 如 下 配置 ; 


<configuration > 

< property > 

<name> dfs. replication </name > 

< value > 3 </value> 

</property> 

< property > 

< name > dfs. namenode. name. dir </name > 

< value> file: /var/data/hadoop/hdfs/nn </value > 
</property> 

< property > 

< name > fs. checkpoint. dir </name > 

< value> file: /var/data/hadoop/hdfs/snn </value> 
</property > 

<property > 

< name > fs. checkpoint. edits. dir </name> 

<value > file: /var/data/hadoop/hdfs/snn </value> 
</property> 

<property > 

< name > dfs. datanode. data. dir </name > 

<value > file: /var/data/hadoop/hdfs/dn </value > 
</property> 

< property > 

< name > dfs. hosts. exclude </name > 

< value >/opt/yarn/hadoop - 2. 6.0 - cdh5. 5. 0/etc/hadoop/exclude </value > 
</property> 

</configuration> 


(7) 配置 mapred-site. xml, 


<configuration > 

< property > 

< name > mapred. job. history. server. embedded </name> 
< value > true </value > 

</property> 

<property > 

< name > mapreduce. jobhistory. address </name > 

< value > master: 10020 </value> 

</property> 

< property > 

< name > mapreduce. jobhistory. webapp. address </name > 
<value > master :50060 </value> 

</property> 

< property > 

< name > mapreduce. jobhistory. intermediate — done — dir </name > 
<value >/mr - history/tmp </value > 

</property> 

<property > 

< name > mapreduce. jobhistory. done — dir </name> 
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<value >/mr — history/done</value> 
</property> 

< property > 

< name > mapreduce. framework. name </name > 
<value> yarn </value > 

</property> 

</configuration> 


(8) 配置 yarn-site. xml, 


< configuration > 
<property> 
< name> yarn. resourcemanager. address </name > 
<value > master: 8032 </value> 
</property> 
< property > 
< name > yarn. resourcemanager. scheduler. address </name > 
< value > master : 8030 </value > 
</property> 
< property > 
< name > yarn. resourcemanager. resource — tracker. address </name > 
< value > master : 8035 </value > 
</property> 
< property > 
< name > yarn. resourcemanager. admin. address </name > 
< value > master : 8033 </value > 
</property> 
< property > 
< name > yarn. resourcemanager. webapp. address </name > 
< value> master: 8088 </value > 
</property> 
< property > 
< name > yarn. resourcemanager. hostname </name > 
<value > master </value > 
</property> 
< property > 
< name > yarn. nodemanager. aux — services </name > 
< value > mapreduce_shuffle </value > 
</property> 
< property > 
< name > yarn. nodemanager. aux — services. mapreduce. shuffle. class </name > 
< value > org. apache. hadoop. mapred. ShuffleHandler </value > 
</property> 
</configuration> 


(9) 修改 slaves 文件 。 


slavel 
slave2 
slavel3 
slavel4 
slavel5 
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(10) Spark 配置 。 


# cd /opt/spark- 1.5.0- cdh5.5.0/conf 


修改 spark-env. sh, 添 加 如 下 配置 : 


export SCALA_HOME = /opt/scala 

export JAVA_HOME = /usr/local/jdk 

export HADOOP_HOME = /opt/yarn/hadoop - 2. 6.0 — cdh5.5.0/ 
export SPARK MASTER_IP = master 

export SPARK_WORKER_MEMORY = 1024m 

export HADOOP_CONF_DIR= $ {HADOOP_HOME}/etc/hadoop 


aD 修改 启动 脚本 。 


#cd /bin/ 

# touch boot. sh 

# chmod 777 boot. sh 
# vim boot. sh 


添加 以 下 配置 。 


tt! /usr/bin/env bash 

source /etc/profile 

service ssh start 
/bin/bash 
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(12) 配置 免 登录 (实体 机 部 署 参照 网 上 Hadoop 集群 ssh 免 登录 配置 ) 。 
apt 安装 ssh 并 启动 ,在 /root/. ssh/ 下 执行 ssh-keygen 生成 密 钥 , 将 id_rsa. pub 文件 内 


容 添 加 到 , ssh/authorized_keys。 


(13) 挂 载 文件 (实体 机 部 署 略 过 ) 。 


退出 系统 ,将 上 述 修改 过 的 配置 文件 挂 载 到 Docker 容器 下 ,方便 修改 。 


#cd ~ 

# mkdir env 

# cd env 

# touch hosts 
# mkdir hadoop 
# mkdir spark 


拉 取 相应 的 文件 。 
(14) 将 配置 好 的 单机 做 成 镜像 。 


# docker commit -m = 'spark' —— author = 'IEDS'a790e8142381 ieds/ spark — base:v6 


15.2.4 集群 部 署 与 启动 


1. Docker 搭建 Master 和 Slave 集群 


At 


# docker run — idt - p50070:50070 — p 8088:8088 -p 4040:4040 - p 50075:50075 - p 8080:8080 


第 15 章 


(10) Spark 配置 。 


# cd /opt/spark- 1.5.0- cdh5.5.0/conf 


修改 spark-env. sh, 添 加 如 下 配置 : 


export SCALA_HOME = /opt/scala 

export JAVA_HOME = /usr/local/jdk 

export HADOOP_HOME = /opt/yarn/hadoop - 2. 6.0 — cdh5.5.0/ 
export SPARK MASTER_IP = master 

export SPARK_WORKER_MEMORY = 1024m 

export HADOOP_CONF_DIR= $ {HADOOP_HOME}/etc/hadoop 


aD 修改 启动 脚本 。 


#cd /bin/ 

# touch boot. sh 

# chmod 777 boot. sh 
# vim boot. sh 


添加 以 下 配置 。 


tt! /usr/bin/env bash 

source /etc/profile 

service ssh start 
/bin/bash 
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(12) 配置 免 登录 (实体 机 部 署 参照 网 上 Hadoop 集群 ssh 免 登录 配置 ) 。 
apt 安装 ssh 并 启动 ,在 /root/. ssh/ 下 执行 ssh-keygen 生成 密 钥 , 将 id_rsa. pub 文件 内 


容 添 加 到 , ssh/authorized_keys。 


(13) 挂 载 文件 (实体 机 部 署 略 过 ) 。 


退出 系统 ,将 上 述 修改 过 的 配置 文件 挂 载 到 Docker 容器 下 ,方便 修改 。 


#cd ~ 

# mkdir env 

# cd env 

# touch hosts 
# mkdir hadoop 
# mkdir spark 


拉 取 相应 的 文件 。 
(14) 将 配置 好 的 单机 做 成 镜像 。 


# docker commit -m = 'spark' —— author = 'IEDS'a790e8142381 ieds/ spark — base:v6 


15.2.4 集群 部 署 与 启动 


1. Docker 搭建 Master 和 Slave 集群 


At 


# docker run — idt - p50070:50070 — p 8088:8088 -p 4040:4040 - p 50075:50075 - p 8080:8080 
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-v ~/env/hosts:/etc/hosts - v ~/env/hadoop/hadoop - env. sh:/opt/yarn/hadoop - 2. 6. 0 一 
cdh5. 5. 0/etc/hadoop/hadoop - env. sh - v ~/env/hadoop/slaves: /opt/yarn/hadoop - 2. 6. 0 - cdh 
5.5.0/etc/hadoop/slaves - v ~/env/hadoop/core — site. xml:/opt/yarn/hadoop - 2. 6. 0 - cdh 
5.5. 0/etc/hadoop/core - site. xml - v ~/env/hadoop/hdfs - site. xml: /opt/yarn/hadoop - 2. 6. 0 
— cdh5. 5.0/etc/hadoop/hdfs - site. xml — v ~ /env/hadoop/mapred — site. xml : /opt/yarn/hadoop — 
2.6.0 - cdh5. 5. 0/etc/hadoop/mapred — site. xml - v ~/env/hadoop/yarn - site. xml:/opt/yarn/ 
hadoop - 2. 6. 0 - cdh5. 5. 0/etc/hadoop/yarn - site. xml ~ v ~/env/spark/slaves:/opt/spark/conf/ 
slaves — v ~/env/spark/spark — env. sh: /opt/spark/conf/spark — env. sh —— name = "master" —— 
hostname = "master" ieds/spark — base: v6 /bin/boot. sh 


# docker run - idt - v ~/env/hosts:/etc/hosts —- v ~/env/hadoop/hadoop - env. sh:/opt/yarn/ 
hadoop - 2. 6. 0 - cdh5. 5. 0/etc/hadoop/hadoop - env. sh — v ~/env/hadoop/slaves:/opt/yarn/ 
hadoop - 2. 6. 0 - cdh5. 5. 0/etc/hadoop/slaves - v ~/env/hadoop/core - site. xml:/opt/yarn/ 
hadoop - 2.6. 0 - cdh5. 5. 0/etc/hadoop/core - site. xml - v ~/env/hadoop/hdfs - site. xml: /opt/ 
yarn/hadoop — 2. 6. 0 - cdh5. 5. 0/etc/hadoop/hdfs - site. xml - v ~/env/hadoop/mapred - site. 
xml: /opt/yarn/hadoop — 2. 6. 0 - cdh5. 5. 0/etc/hadoop/mapred - site. xml — v ~/env/hadoop/yarn 
- site. xml: /opt/yarn/hadoop ~ 2. 6. 0 - cdh5. 5. 0/etc/hadoop/yarn - site. xml - v ~/env/spark/ 
slaves: /opt/spark/conf/slaves -v ~ /env/spark/spark — env. sh:/opt/spark/conf/spark — env. sh 
—- name = "slavel" —— hostname = "slavel" ieds/spark — base: v6 /bin/boot. sh 


2. Weave 设置 IP 地 址 


#ł weave connect 10.10.65.131 

tf weave attach 192. 168. 1. 2/24 master 

# weave attach 192. 168.1.3/24 slavel … 

3. 服务 启 动 

进入 Master 主机 ,并 验证 各 机 器 间 ssh 通信 无 问题 。 
(1) 格式 化 master 的 hdfs 。 


# cd /opt/yarn/hadoop -2.6.0- cdh5.5.0/bin 
# . /hdfs namenode - format 


(2) 启动 hdfs 服务 。 


# cd /opt/yarn/hadoop - 2.6.0— cdh5.5.0/sbin 
#./start - dfs. sh 


(3) 启动 yarn 服务 。 
同上 目录 。 


# . /start - yarn. sh 
(A) 启动 jobserver。 
7 . /mr - jobhistory - daemon. sh historyserver 


(5) 验证 。 
命令 验证 : 执行 jps 命令 查看 服务 是 否 启动 。 


master F: 


ResourceManager 


SecondaryNameNode 
JobHistoryServer 
NameNode 


slave F: 


DataNode 
NodeManager 


© Web 验证 ( 须 部 署 第 6 章 )。 


http://master :80808/cluster 
http://master :50070 


15.2.5 基于 Ambari 管理 平台 的 镜像 搭建 


1， 部 署 准备 


由 于 Ambari 部 署 所 需 安装 包 太 大 , 故 需要 搭建 私 库 。 
下 载 Ambari: 
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http://public - repo - 1. hortonworks. com/ambari/ubuntul4/2. x/updates/2. 1. 2. 1/ambari — 


2.1.2.1- ubuntul4. tar.gz 


下 载 HDP: 


http://public - repo - 1. hortonworks. com/HDP/ubuntul4/2. x/updates/2. 3. 2. 0/HDP - 2. 3.2.0 - 


ubuntul4 - deb, tar. gz 


下 载 HDP-UTILS; 


http://public - repo - 1. hortonworks. com/HDP - UTILS - 1. 1. 0. 20/repos/ubuntu14/HDP - UTILS — 


1.1.0. 20 - ubuntul4. tar. gz 


2. APE RC 
在 物理 机 上 安装 apache2 并 配置 httpd。 


# vim /etc/apache2/apache2. conf 文件 ,加 入 : 
ServerName localhost 

DirectoryIndex index. html index. htm index. php 
AddDefaultCharset GB2312 


启动 apache2, 并 将 上 面 下 载 的 文件 解压 到 /var/www/html/ 目 录 下 。 


3. ambari-server 安装 


(1) 修改 ambari 源 。 


# cd /etc/apt/sources. list. d 


# wget http://public - repo - 1. hortonworks. com/ambari/ubuntul4/2. x/updates/2. 1. 2/ 


ambari. list 
# vim mabari. list 


修改 路 径 为 http://10. 10. 65.132/ambari/ubuntul4( 私 库 地 址 ) 。 
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# apt- key adv -- recv— keys —— keyserver keyserver. ubuntu. com B9733A7A07513CAD 
# apt- get update 


(2) 安装 jdk 并 配置 环境 变量 。 


export JAVA_HOME = /opt/jdk1.7.0_79 
export CLASSPATH = $ {JAVA_HOME}/lib 
export PATH= $ {JAVA_HOME}/bin: $ PATH 
(3) 配置 免 登录 ,参考 第 14 章 。 

(4) 安装 和 启动 ambari-server。 


# apt-get install ambari— server 
# ambari - server setup 


(5) 配置 Host 和 Hostname, 


192.168.1.211 ambari 

tt slaves 

192. 168.1. 213 hadoopl 
192. 168. 1.214 hadoop2 
192. 168.1. 215 hadoop3 


(6) 制作 boot. sh, 添 加 如 下 内 容 。 


#!/bin/bash 
source /etc/profile 
service ssh start 
/bin/bash 


(7) commit 镜像 。 


docker commit -m = 'ambariserver' -- author = 'IEDS' a790e8142381 ieds/ambari:v1 


(8) 验证 。 


# docker run - itd - p 8080:8080 - p 5901:5901 -- name =" ambari " —— hostname = "ambari" 
ieds/ambari:v2 /bin/boot. sh 

#ł weave attach 192. 168.1.211/24 ambari 

# docker attach ambari 

# ambari- server start 

访问 http: // ambari;8080. 

lient 安装 

(1) 重复 上 述 (1)、(2)、(3)、(5) 步 。 

(2) 安装 ambari-agent 和 ambari-ntp, 


4. ambari 





# apt-get install ambari- agent 
# apt-get install ambari- ntp 


(3) 配置 boot. sh。 


#!/bin/bash 
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source /etc/profile 
service ssh start 
service ntp start 
ambari — agent start 


(4) commit 镜像 。 
先 执行 第 6 章 的 操作 ,然后 再 执行 以 下 命令 : 


docker commit -m = 'ambariclient' -- author = 'IEDS'a790e8142381 ieds/ambariclient:v1 
(5) 部 署 实例 。 


#łdocker run - itd -- name ="hadoop1" 一 - hostname = "hadoopl" ieds/ambariclient:v1 /bin/ 
boot. sh 
tt weave attach 192.168.1.212/24 hadoopl 


5. Ambari 管理 


页 面 访问 : 输入 http: //10. 10, 65. 132,8080 进入 管理 页 面 ,登录 账号 admin/admin, 如 
图 15-17 所 示 。 





CPU Usage Counter Load NameNode Heap NomeNode RPC NameNode CPU wio 
No Data Avaiiabie No Data Avaiatie È 
7% 0.50 ms 
NomeNode Uptime ResourceManager Resourceltenager NodeManagers Live YARN Memory 
Heap r Uptime 
1.9d o% 1.9d 2/2 0% 


图 15-17 基于 Ambari 管理 的 Hadoop 集群 
配置 路 径 时 修改 为 以 下 路 径 : 


http://10. 10. 65. 132/HDP/ubuntul4/2. x/updates/2. 3.2.0 
http://10. 10. 65.132/HDP — UTILS - 1. 1. 0.20/repos/ubuntul 4 


15.2.6 桌面 系统 XFCE 搭建 

由 于 集群 是 基于 Docker 构建 内 网 虚拟 环境 ,因此 需要 搭建 桌面 系统 进行 管理 页 面 的 
访问 。 

# docker attach ambari 为 了 方便 管理 直接 在 Ambari 上 搭建 , 如 不 需要 管理 服务 
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Ambari 则 新 建 一 个 Docker 实例 即 可 。 
注意 : Docker 建 实 例 时 需要 将 5901 端口 做 映射 。 


# apt-get install xubuntu-desktop 站 安装 xubuntu 桌面 环境 ,默认 xfce4 桌面 ,如 果 是 


ubuntu 12.04, 那 么 可 以 用 unity 桌面 环境 , 改 为 apt-get install ubuntu-desktop. 
+ apt-get install vnc4server 井 安装 vncserver 服务 端 。 
#vneserver 并 启动 vne 服务 ,第 一 次 会 让 用 户 输入 远程 连接 的 密码 。 


#cd ~/. vne 


# vim xstartup + f$} xstartup 文件 ,最 后 一 行 注释 掉 , 添 加 一 行 startxfce4 &.。 如 果 


是 unity 桌面 环境 , 改 为 gnome-session &., 


#vncserver -kill :1 


并 vncserver 站 杀 掉 原来 的 vnc 进程 ,重启 vne 服务 生效 。 
搭建 成 功 后 下 载 软件 VNC VIEWER 客户 端 连接 (端口 默认 为 1) ,如 图 15-18 所 示 。 


[T @ Amari - nadoop 


ambari:2 0 ~ VNC Viewer 

















(&_ & localhost: 8080/4 /ma 







© HDFS 
© MapReduce2 


© YARN 
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© Spark 


Actions + 


CPU Usage 


15.3 ”本章 小 结 


本 章 介 绍 了 分 布 式 的 Hadoop 与 Spark 集群 搭建 和 基于 Docker 容器 的 Spark 大 数据 
云 架构 。Spark 集群 基于 Spark1. 6.1 和 Hadoop2. 6. 0 构建 。 大 数据 云 部 署 依托 于 Docker 
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Configuration State: 
Map tasks Uberized: 
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Diagnostics: 
Average Map Time 
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图 15-18 大 数据 集群 架构 的 桌面 


容器 集群 ,机 组 间 通 过 Weave 搭建 互通 网 络 环境 。 
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16.1 Spark 应 用 开发 环境 配置 


Spark 的 开发 可 以 通过 Intellij 或 者 Eclipse IDE 进行 ,在 环境 配置 的 开始 阶段 还 需要 安 
装 相 应 的 Scala 插件 。 


16.1.1 使 用 Intellij 开发 Spark 程序 


下 面 介 绍 如 何 使 用 Intellij IDEA 构建 Spark 开发 环境 和 源码 阅读 环境 。 由 于 Intellij 
对 Scala 的 支持 更 好 ,因此 目前 Spark 开发 团队 使 用 Intellij 作为 开发 环境 。 

1. 配置 开发 环境 

(1) 安装 JDK。 

用 户 可 以 自行 安装 JDK7、JDK8。 官 网 地 址 为 http://www. oracle. com/technetwork/ 
java/javase/downloads/index. html. 

下 载 后 ,如 果 在 Windows 下 直接 运行 安装 程序 , 则 自动 配置 环境 变量 。 安 装 成 功 后 ,在 
CMD 的 命令 行 下 输入 Java, 如 有 Java 版 本 的 日 志 信息 提示 , 则 证 明 安 装 成 功 。 

如 果 在 Linux 下 安装 ,下 载 JDK 包 解 压缩 后 还 需要 配置 环境 变量 。 

在 /etc/profile 文件 中 ,配置 环境 变量 : 

export JAVA_HOME = /usr/java/jdk1.8.0_27 

export JAVA_BIN = /usr/java/jdk1.8.0_27/bin 

export PATH= $ PATH: $ JAVA_HOME/bin 


export CLASSPATH=.: $ JAVA_HOME/lib/dt. jar: $ JAVA_HOME/1ib/tools. jar 
export JAVA_HOME JAVA_BIN PATH CLASSPATH 
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(2) 安装 Scala. 

Spark Xf Scala 的 版 本 有 约束 ,用 户 可 以 在 Spark 的 官方 下 载 界面 看 到 相应 的 Scala 版 
本 号 。 下 载 指定 的 Scala 包 , 官 网 地 址 为 http://www. scala-lang. org/download/ 。 

(3) 安装 Intellij IDEA. 

用 户 可 以 下 载 安 装 最 新 版 本 的 Intelij ,官网 地 址 为 http://www. jetbrains. com/idea/ 
download/ 。 

目前 Intellij 最 新 的 版 本 中 已 经 可 以 支持 新 建 sbt 工程 ,安装 Scala 插件 可 以 很 好 地 支 
持 Scala 开发 。 

(A) 4 Intellij 中 安装 Scala 插件 。 

在 Intellij 菜单 栏 中 选择 Configure~>Plugins—Browse repositories 命令 ,在 弹出 的 界面 
中 输入 Scala 搜索 插件 (如 图 16-1 所 示 ) ,然后 单 击 相应 的 安装 按钮 进行 安装 ,重启 Intellij 
使 配置 生效 。 











Sort by namer] Scala 


X Uninstall plugin 
wom 121 
IERIE, 56T. ssp, HOCON and Play 2 support. 
Vendor 
JetBrains inc. 
Pugin homepage 


httpJianeaistbrains net/confivens eidisolay/SC ASI Piu 
Min+fortintellls DEA 


Chack or uncheck a plugin to enable er dmable it 


图 16-1 Intellij 中 安装 Scala 插件 


2. 配置 Spark 应 用 开发 环境 

(1) Æ Intellij IDEA 中 创建 Scala Project ,名称 为 SparkTest。 

(2) 选择 菜单 栏 中 的 File— project structure— Libraries 命令 ,然后 选择 十”, 导入 
spark-assembly-1. 6. 1-hadoop2. 6. 0. jar。 

只 需 导 入 上 述 Jar 包 即 可 ,该 包 可 以 通过 sbt/sbt assembly 命令 生成 ,这 个 命令 相当 于 
将 Spark 的 所 有 依赖 包 和 Spark 源码 打包 为 一 个 整体 。 在 assembly/target/scala-2. 10. 4/ 
目录 下 生成 spark-assembly-1. 6. 1-hadoop2. 6. 0.jar。 

(3) 以 同样 的 方式 将 Scala 库 的 jar 包 导 入 ,之 后 可 以 开始 开发 Scala 程序 ,如 图 16-2 所 
示 。 本 例 将 Spark 默认 的 示例 程序 SparkPi 复制 进 文件 。 
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lFAspark\SparkPi] - Isparkpil - -\sre\SparkPi.scala - 


o 





图 16-2 Spark 中 的 Pi 编程 
3. 运行 Spark 程序 
(1) 本 地 运行 。 
编写 完 Scala 程序 后 ,可 以 直接 在 Intellij 中 以 本 地 (Local) 模 式 运行 (如 图 16-3 所 示 ) 。 
注意 ,设置 Program arguments 中 的 参数 为 local。 
[| 








图 16-3 Intellij 中 以 local 模式 运行 
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在 Intellij 中 单 击 Run/Debug Configuration 按钮 ,在 其 下 拉 列 表 中 选择 Edit 
Configurations 选项 。 在 Run 输入 选择 界面 中 的 Program arguments 文本 框 中 输入 main 
函数 的 输入 参数 local, 即 为 本 地 单机 执行 Spark 应 用 。 然 后 右键 选择 需要 运行 的 类 , 单 击 
Run 运行 Spark 应 用 程序 。 

(2) 在 集群 上 运行 Spark 应 用 Jar 包 。 

如 果 想 把 程序 打 成 Jar 包 , 通 过 命令 行 的 形式 在 Spark 集群 中 运行 ,可 以 按照 以 下 步 又 操作 : 

选择 File->Project Structure 命令 ,然后 选择 Artifact 选项 , 单 击 “十 ”按钮 ,选择 Jar 
From Modules with dependencies 命令 ,如 图 16-4 所 示 。 






























































图 16-4 Intellij 中 选择 生成 jar 


选择 Main 函数 ,在 弹出 的 对 话 框 中 选择 输出 Jar 位 置 ,并 单 击 OK 按钮 。 

在 图 16-4 中 单 击 From mudules with dependencies 后 会 出 现 图 16-5 所 示 的 输入 框 ,在 
其 中 选择 需要 执行 的 Main 函数 。 

在 图 16-5 所 示 的 界面 中 单 击 OK 按钮 后 .在 图 16-6 所 示 的 对 话 框 中 通过 OutPut 
layout 中 的 “十 ?选择 依赖 的 Jar 包 。 

在 主 菜单 中 选择 Build>Build Artifact 命令 ,编译 生成 Jar 包 。 

在 集群 的 主 节点 通过 下 面 的 命令 执行 生成 的 Jar 包 SparkTest. jar, 
































java - jar SparkTest. jar 
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在 Intellij 中 单 击 Run/Debug Configuration 按钮 ,在 其 下 拉 列 表 中 选择 Edit 
Configurations 选项 。 在 Run 输入 选择 界面 中 的 Program arguments 文本 框 中 输入 main 
函数 的 输入 参数 local, 即 为 本 地 单机 执行 Spark 应 用 。 然 后 右键 选择 需要 运行 的 类 , 单 击 
Run 运行 Spark 应 用 程序 。 

(2) 在 集群 上 运行 Spark 应 用 Jar 包 。 

如 果 想 把 程序 打 成 Jar 包 , 通 过 命令 行 的 形式 在 Spark 集群 中 运行 ,可 以 按照 以 下 步 又 操作 : 

选择 File->Project Structure 命令 ,然后 选择 Artifact 选项 , 单 击 “十 ”按钮 ,选择 Jar 
From Modules with dependencies 命令 ,如 图 16-4 所 示 。 






























































图 16-4 Intellij 中 选择 生成 jar 


选择 Main 函数 ,在 弹出 的 对 话 框 中 选择 输出 Jar 位 置 ,并 单 击 OK 按钮 。 

在 图 16-4 中 单 击 From mudules with dependencies 后 会 出 现 图 16-5 所 示 的 输入 框 ,在 
其 中 选择 需要 执行 的 Main 函数 。 

在 图 16-5 所 示 的 界面 中 单 击 OK 按钮 后 .在 图 16-6 所 示 的 对 话 框 中 通过 OutPut 
layout 中 的 “十 ?选择 依赖 的 Jar 包 。 

在 主 菜单 中 选择 Build>Build Artifact 命令 ,编译 生成 Jar 包 。 

在 集群 的 主 节点 通过 下 面 的 命令 执行 生成 的 Jar 包 SparkTest. jar, 
































java - jar SparkTest. jar 
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图 16-5 Intellij 中 选择 需要 执行 的 Main 函数 








图 16-6 Intellij 中 选择 依赖 的 Jar 包 
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16.1.2 使 用 Spark Shell 开发 运行 Spark 程序 


因为 运行 Spark Shell 时 会 默认 创建 一 个 SparkContext, 命名 为 sc, 所 以 不 需要 在 
Spark Shell 创建 新 的 SparkContext。 在 运行 Spark Shell 之 前 ,可 以 设 定 参 数 MASTER 指 
定 Spark 应 用 提交 的 对 象 。 可 以 通过 参数 ADD_JARS 将 JARS 添加 到 classpath 中 。 

如 果 希 望 spakr-shell 在 本 地 通过 4 核 的 CPU 运行 ,需要 以 如 下 方式 启动 : 














$ MASTER = local[4] . /spark - shell 


这 里 的 4 是 指 启动 4 个 工作 线程 。 
如 果 要 添加 JARS, 可 以 用 如 下 方法 实现 : 





$ MASTER = local[4] ADD_JARS = code. jar . /spark - shell 
在 Spark Shell 中 输入 下 面 代码 , 读 取 dir 文件 ,以 输出 文件 中 有 多 少数 据 项 。 


scala>val text = sc. textFile("dir") 
scala > text. count 


4% Enter 键 即 可 运行 Shell 中 的 程序 。 


16.2 Spark 大 数据 编程 


16.2.1 WordCount 


WordCount 是 大 数据 领域 的 经 典范 例 , 如 同 程序 设计 中 的 Hello World 一 样 ,是 一 个 
入 门 程序 。 本 节 主 要 从 并 行 处 理 的 角度 出 发 ,介绍 设计 Spark 程序 的 过 程 。 

1. 实例 描述 

输入 : 


Hello World Bye World 
Hello Hadoop Bye Hadoop 
Bye Hadoop Hello Hadoop 


输出 : 


<Bye,3> 
<Hadoop,4> 
<Hello,3> 
<World,2> 


2. 设计 思路 
在 map 阶段 会 将 数据 映射 为 : 


<Hello,1> 
<World,1> 
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<Bye,1> 
<World,1> 
<Hello,1> 
< Hadoop, 1 > 
<Bye,1> 

< Hadoop, 1 > 
<Bye,1> 

< Hadoop, 1 > 
<Hello,1> 
< Hadoop, 1 > 


在 reduceByKey 阶段 会 将 相同 key 的 数据 合并 ,并 将 合并 结果 相 加 。 


<Bye,1,1,1> 
<Hadoop,1,1,1,1> 
<Hello,1,1,1> 
<World,1,1> 


3. 代码 示例 
WordCount 的 主要 功能 是 统计 输入 中 所 有 单词 出 现 的 总 次 数 ,编写 步 又 如 下 : 
(1) 初始 化 。 
创建 一 个 SparkContext H R. 该 对 象 有 4 个 参数 : Spark master 位 置 .应 用 程序 名 称 、 
Spark 安装 目录 和 Jar 存放 位 置 。 
需要 引入 下 面 两 个 文件 : 
import org, apache. spark. _ 
import SparkContext. __ 
val sc = new SparkContext(args(0), "WordCount", 
System. getenv( "SPARK_HOME"), 
Seq( System. getenv("SPARK_TEST_JAR"))) 
(2) 加 载 输入 数据 。 
从 HDFS 上 读 取 文 本 数据 ,可 以 使 用 SparkContext 中 的 textFile 函数 将 输入 文件 转换 
为 一 个 RDD, 该 函数 采用 Hadoop 中 的 TextInputFormat 解析 输入 数据 。 


val textRDD = sc. textFile(args(1)) 


textFile 中 的 每 个 Hadoop Block 相当 于 一 个 RDD 分 区 。 

(3) 词 频 统计 。 

对 于 WordCount 而 言 ,首先 需要 从 输入 数据 中 的 每 行 字符 串 中 解析 出 单词 ,然后 分 而 
治之 ,将 相同 单词 放 到 一 个 组 中 ,统计 每 个 组 中 每 个 单词 出 现 的 频率 。 

val result = textRDD. flatMap{ 

case(key, value) => value. toString().split("\\s+") 

}.map(word =>(word, 1)). reduceByKey (_+ _) 
其 中 ,flatMap 函数 对 每 条 记录 进行 转换 ,形成 一 个 集合 ,再 将 集合 中 的 元 素 变 为 RDD 中 的 
记录 ; map 函数 将 一 条 记录 映射 为 另 一 条 记录 ; reduceByKey 函数 将 key 相同 的 关键 字 的 
数据 聚合 到 一 起 进行 函数 运算 。 
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(4) 存储 结果 。 
可 以 使 用 SparkContext 中 的 saveAsTextFile 函数 将 数据 集 保存 到 HDFS 目录 下 。 


result. saveAsTextFile(args(2)) 


4. 应 用 场景 
WordCount 的 模型 可 以 在 很 多 场景 中 使 用 ,如 统计 过 去 一 年 中 访客 的 浏览 量 、 最 近 一 
段 时 间 相 同 查询 的 数量 和 海量 文本 中 的 词 频 等 。 


16.2.2 股票 趋势 预测 


本 例 将 介绍 如 何 使 用 Spark 构建 实时 数据 分 析 应 用 ,以 分 析 股 票 价格 趋势 。 

本 例假 设 已 预先 连接 了 Spark Streaming。 读 者 可 以 阅读 介绍 BDAS 的 章节 预先 了 解 
相关 概念 。 第 一 步 ,需要 获取 数据 流 ,本 例 使 用 JSON/WebSocket 格式 呈现 6 种 实时 市 场 
金融 信息 。 第 二 步 ,需要 知道 如 何 使 用 获取 到 的 数据 流 ,本 例 不 涉及 专业 的 金融 知识 ,但 可 
以 在 这 个 应 用 中 通过 价格 改变 规律 预测 价格 趋势 。 

1. 实例 描述 

本 例 通 过 使 用 scalawebsocket Æ (Github 网 址 为 https://github. com/pbuda/ 
scalawebsocket) 访 问 WebSocket。scalawebsocket 库 只 支持 Scala 2. 10 以 获取 网 上 的 金融 
数据 流 。 

输入 为 : 股票 名 和 相应 价格 。 


Croda International PLC — 24.82 - 24.82 
ASOS PLC - 47.485 - 47.485 

Arian Silver Corp — 0.0435 - 0.0435 
Medicx Fund Ltd — 0.7975 - 0.7975 
Supergroup PLC — 10.73 - 10.73 

Diageo PLC - 20.07 - 20.075 

Barclays PLC - 2.891 - 2.8925 

QinetiQ Group PLC — 1.874 — 1.874 

CSR PLC = 5.7 =- 5.7 

United Utilities Group PLC - 7.23 - 7.23 


输出 为 : 处 于 增长 趋势 的 股票 名 称 。 


Real estate 

Telecommunication 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 
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2. 设计 思路 

通过 Spark Streaming 的 时 间 窗 口 ,增加 新 数据 ,减少 旧 数 据 。 本 例 中 的 reduce 函数 用 
于 对 所 有 价格 改变 求 和 (有 正 向 的 改变 和 负 向 的 改变 )。 之 后 希望 看 到 正 向 的 价格 改变 数量 
是 否 大 于 负 向 的 价格 改变 数量 ,这 里 通过 改变 正 向 数据 将 计数 器 加 1, 改 变 负 向 的 数据 将 计 
数 器 减 1 进行 统计 ,从 而 统计 出 股票 的 趋势 。 

3. 代码 示例 

通过 本 书 的 BDAS 章节 ,假设 读者 已 经 对 Spark 和 Spark Streaming 有 了 初步 了 解 ,下 
面 将 介绍 整个 应 用 的 设计 与 开发 。 

(1) 接收 流 数据 。 

为 了 在 Spark 中 处 理 流 数据 ,需要 创建 一 个 StreamingContext 对 象 (Spark Streaming 
中 的 上 下 文 对 象 ) ,作为 流 处 理 的 上 下 文 。 之 后 注册 一 个 输入 流 (InputDStream) , 它 会 初始 
化 一 个 接收 器 (Receiver) 对 象 (Spark 默认 提供 了 许多 类 型 的 接收 器 , 如 Twitter, 
AkkaActor,ZeroMQ 等 )。 由 于 默认 没有 网 页 套 接 字 (WebSocket) 的 实现 ,因此 本 例 将 自 定 
义 这 个 类 ,获取 网 页 流 数 据 。 

通过 下 面 的 代码 实现 一 个 简单 的 trait ,进而 使 用 WebSocket( 它 产生 所 有 可 用 的 股票 序列 ) 。 

import scalawebsocket. WebSocket 

trait PriceWebSocketClient { 

import Listings. __ 

def createSocket(handleMessage: String => Unit) = { 

websocket = WebSocket().open("ws: //localhost: 8080/1. 0/marketDataWs").onTextMessage(m => 

{handleMessage(m) 

}) 

subscriptions. foreach ( listing = > websocket. sendText ("{\"subscribe\": {" + listing 

+ IFP 

} 

var websocket: WebSocket = __ 

} class PriceEchoextendsPriceWebSocketClient{ 


createSocket(print1n) 
} 


为 了 能 够 让 Spark 正确 挂 接 到 WebSocket, 并 不 断 接收 消息 ,可 以 通过 实现 一 个 接收 器 
(Receiver) 达到 这 个 目的 。 由 于 接收 的 数据 符合 通用 的 网 络 协 议 , 因此 通过 继承 
NetworkReceiver 类 实现 接收 器 。 用 户 需 要 创建 一 个 块 生成 器 (BlockGenerator) ,并 将 接收 
到 的 消息 附加 到 块 生成 器 中 。 














Class PriceReceiver extends NetworkReceiver[String]withPriceWebSocketClient{ 
lazy val blockGenerator = new BlockGenerator(StorageLevel . MEMORY_ONLY_SER) 
protected override def onStart() { 

blockGenerator. start 

createSocket(m => blockGenerator += m) 

} protected override def onStop() { 

blockGenerator. stop 

websocket. shutdown 


H 
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到 目前 为 止 ,获取 的 流 数据 是 以 JSON 格式 存储 的 文本 字符 串 ,通过 抽取 数据 中 重要 的 
部 分 进而 用 其 创建 case 类 ,这 样 数据 处 理 将 变 得 更 容易 。 创 建 一 个 PriceUpdate case 类 。 


import scala. util. parsing. json. JSON 

import scala. collection. JavaConversions 

import java. util. TreeMap 

case class PriceUpdate(id: String, price: Double, lastPrice: Double) 
object PriceUpdate{ 

val lastPrices = JavaConversions. asMap(new TreeMap[ String, Double] ) 
def apply(text: String): PriceUpdate = { 

val(id, price) = getIdAndPriceFromJSON(text) 

val lastPrice: Double = lastPrices. getOrElse(id, price) 
lastPrices. put(id, price) 

PriceUpdate(id, price, lastPrice) 

} 

1% 此 方法 解析 与 处 理 ISON 数据 格式 , 暂 不 袭 述 * / 

def getIdAndPriceFromJSON(text: String) = // snip - simple JSON processing 
} 


这 时 还 不 能 找到 金融 序列 属性 ,不 能 获取 之 前 的 价格 信息 。 同 时 ,需要 更 新 接收 器 类 为 
下 面 的 情况 ,解析 输入 数据 。 


import spark. streaming. dstream. NetworkReceiver 

import spark. storage. StorageLevel 

class PriceReceiver extends NetworkReceiver[PriceUpdate]withPriceWebSocketClient{ 
lazy val blockGenerator = new BlockGenerator(StorageLevel . MEMORY_ONLY_SER) 
protected override def onStart() { 

blockGenerator. start 

createSocket(m => { 

val priceUpdate = PriceUpdate(m) 

blockGenerator += priceUpdate 

}) 

} protected override def onStop() { 

blockGenerator. stop 

websocket. shutdown 


H 


还 需要 实现 一 个 输入 流 (InputDStream) ,这 个 输入 流 需要 实现 getReceiver 方法 , 当 外 
部 调用 这 个 方法 时 返回 一 个 初始 化 好 的 价格 接收 器 。 


object stream extends NetworkInputDStream[ PriceUpdate](ssc) { 
override def getReceiver(): NetworkReceiver[PriceUpdate] = { 
newPriceReceiver( ) 


H 
将 之 前 的 程序 加 入 Spark Streaming 的 主干 程序 中 。 


/ x» 创建 Spark Streaming 上 下 文 */ 

val ssc = new StreamingContext("local", "datastream", Seconds(15), "C:/software/spark — 
1.6.1",List("target/scala- 2.10.3 = /spark- data - stream_2.10.3-1.0.jar")) 

/* 创建 并 注册 输入 流 * / 


ssc. registerInputStream( stream) 
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/* 启动 流 数据 处 理 引 擎 * / 
ssc. start() 


上 面 这 段 代 码 初始 化 了 流 数 据 处 理 的 上 下 文 ,并 配置 了 应 用 。 

local 表示 在 本 地 执行 , datastream 是 应 用 的 名 称 ,Seconds(15) 定 义 批 处 理 的 时 间 片 , 
C:/software/spark-1.6. 1 定义 Spark 的 路 径 ,List("target/scala-2. 10. 3 一 /spark-data 
stream_2. 10. 3-1.0.jar") 定 义 需 要 的 Jar 包 。 

项 目 结构 为 SBT 的 项 目 格式 ,在 根 目 录 运 行 SBT package run 即 可 ,这 样 将 会 编译 , 打 
包 程 序 生成 target/scala-2. 10. 3=/spark-data-stream_2. 10. 3-1. 0. jar, 然后 Spark 可 以 使 
用 Jar 中 的 类 。 

下 面 代码 为 到 目前 为 止 应 用 的 完整 代码 。 


override def main(args: Array[String]) { 

import Listings. __ 

val ssc = new StreamingContext("local", "datastream", Seconds(15), "C:/software/spark 一 
Pea", 

List("target/scala- 2.9.3/spark - data— stream_2.9.3-1.0.jar")) 

object stream extends NetworkInputDStream[ PriceUpdate](ssc) { 

override de fgetReceiver(): NetworkReceiver[PriceUpdate] = { 

newPriceReceiver( ) 

}} ssc. registerInputStream( stream) 

stream.map(pu => listingNames(pu. id) + " -~ " + pu.lastPrice + " - " + pu. price). print() 
ssc. start() 


} 
控制 台 将 会 产生 以 下 输出 : 


Croda International PLC — 24.82 - 24.82 
ASOS PLC - 47.485 — 47.485 

Arian Silver Corp — 0.0435 - 0.0435 
Medicx Fund Ltd - 0.7975 - 0.7975 
Supergroup PLC — 10.73 — 10.73 

Diageo PLC - 20.07 — 20.075 

Barclays PLC - 2.891 - 2.8925 

QinetiQ Group PLC — 1.874 — 1.874 

CSR PLC - 5.7 -~ 5.7 

United Utilities Group PLC - 7.23 - 7.23 


(2) 处 理 流 数 据 。 

通过 上 文 的 初始 化 和 数据 接收 ,已 经 可 以 源源 不 断 地 获取 数据 了 。 下 面 介绍 如 何 处 理 
和 分 析 数 据 。 

下 面 程序 可 将 数据 转化 为 类 股 , 改 变价 格 和 频 度 的 序列 。 第 一 次 处 理 时 ,将 每 个 数据 项 
转化 为 (类 股 , 价 格 改变 ,1) 的 元 组 。 通 过 下 面 的 代码 完成 这 个 过 程 : 
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val sectorPriceChanges = stream. map(pu => 
(listingSectors(pu. id), (pu. price — pu. lastPrice, 1))) 


现在 就 可 以 使 用 reduceByKeyAndWindow 函数 了 。 这 个 函数 允许 用 户 使 用 滑动 窗口 
处 理 数 据 ,时 间 窗 口内 的 数据 将 会 使 用 reduce 函数 处 理 , 使 用 Key-Value 对 中 的 Key 作为 
reduce 的 关键 字 , 这 里 将 使 用 一 个 reduce 函数 和 反 向 reduce 函数 。 

这 样 ,每 次 在 时 间 窗 口内 欠 代 时 ,Spark 都 对 新 数据 进行 reduce 处 理 , 需要 丢弃 的 旧 数 
据 不 再 使 用 reduce 处 理 。 

Spark 需要 做 的 就 是 撤销 之 前 最 左 侧 旧 数据 对 整个 reduce 数据 结果 的 改变 ,增加 右 侧 
新 的 reduce 数据 对 整个 reduce 数据 结果 产生 新 的 改变 。 

需要 写 一 个 reduce 和 inverse reduce 函数 。 在 本 例 中 ,reduce 函数 用 于 对 所 有 价格 改 
变 求 和 (有 正 向 的 改变 和 负 向 的 改变 ) 。 为 了 看 到 正 向 的 价格 改变 数量 大 于 负 向 的 价格 改变 
数量 ,这 里 可 以 通过 改变 正 向 数据 ,将 计数 器 加 1; 改变 负 向 数据 ,将 计数 器 减 1 达到 这 个 效 
果 。 代 码 如 下 : 

val reduce = (reduced: (Double, Int), pair: (Double, Int)) => { 

if(pair._1 >0)(reduced._1 + pair._1, reduced. 2 + pair. 2) 

else(reduced._1 + pair. 1, reduced. 2 - pair. 2) 

invReduce = (reduced:(Double, Int), pair: (Double, Int)) =>{ 

if(pair._1 >0)(reduced._1 + pair._1, reduced. 2 - pair. 2) 

else(reduced._1 + pair. 1, reduced. 2 + pair. 2) 

} 


val windowedPriceChanges = 
sectorPriceChanges. reduceByKeyAndWindow( reduce, invReduce, Seconds(5 * 60),Seconds(15)) 


现在 通过 上 文 介绍 的 函数 ,已 经 可 以 构建 一 个 reduce 流 处 理应 用 ,这 个 应 用 能 够 感知 
价格 波动 和 趋势 。 由 于 只 希望 呈现 出 正 向 波动 最 剧烈 的 一 些 股票 。 可 以 过 滤 流 数据 ,保留 
下 正 向 波动 的 股票 ,然后 将 数据 元 组 Key-Value 的 Key 进行 排序 ,统计 出 波动 最 大 的 股票 
属性 。 本 例假 设 正 向 波动 剧烈 与 否 的 权重 为 价格 改变 大 小 乘 以 价格 改变 计数 器 值 , 将 
Value 中 的 两 个 值 组 合计 算出 的 结果 作为 新 的 Key。 最 后 ,将 数据 按照 新 的 Key 打印 出 最 
大 的 5 个 类 股 。 














import scala. collection. immutable. List 
import spark. SparkContext.__ 

import spark. streaming. __ 

import spark. streaming. StreamingContext. __ 
import spark. streaming. dstream. __ 

object DataStreamextendsApp{ 

ol 
Positive Trending 


""".stripMargin 

override def main(args: Array[String]) { 

import Listings. __ 

import System. __ 

val ssc = new StreamingContext("local", "datastream", Seconds(15), "C:/software/spark 一 
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O73", 

List("target/scala— 2.9.3/spark - data - stream_2.9.3-1.0.jar")) 

object stream extends NetworkInputDStream[ PriceUpdate](ssc) { 

override def getReceiver(): NetworkReceiver[PriceUpdate] = { 

newPriceReceiver( ) 

}} ssc. checkpoint("spark") 

ssc. registerInputStream( stream) 

val reduce = (reduced: (Double, Int), pair: (Double, Int)) => { 

if(pair._1>0)(reduced._1 + pair. 1, reduced. 2 + pair. 2) 

else(reduced._1 + pair. 1, reduced. 2 - pair. 2) 

} 

val invReduce = (reduced: (Double, Int), pair: (Double, Int)) => { 

if(pair._1 >0)(reduced._1 + pair._1, reduced. 2 — pair._2) 

else(reduced._1 + pair. 1, reduced. 2 + pair. 2) 

} 

Val sectorPriceChanges = stream.map(pu =>(listingSectors(pu. id), 

(pu. price — pu. lastPrice, 1))) 

val windowedPriceChanges = sectorPriceChanges. reduceByKeyAndWindow ( reduce, invReduce, 
Seconds (5 * 60),Seconds(15) ) 

val positivePriceChanges = windowedPriceChanges. filter{case(_,(_, count)) => count > 0} 
val priceChangesToSector = positivePriceChanges. map{case(sector, (value, count)) =>(value * 
count, sector) } 

val sortedSectors = priceChangesToSector. transform(rdd => rdd. sortByKey(false)).map(_. 2) 
sortedSectors. foreach(rdd => { 

println("""| ---------~--~---------------=-=---=--=------- == 

|Positive Trending (Time: %d ms) 

| 
|""". stripMargin. format(currentTimeMillis + rdd. take(5). map(sectorCodes(_)). mkString("\ 
n"))}) 


ssc. start() 




















Real estate 

Telecommunication 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 


Real estate 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 

Electrical appliances & components 
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O73", 

List("target/scala— 2.9.3/spark - data - stream_2.9.3-1.0.jar")) 

object stream extends NetworkInputDStream[ PriceUpdate](ssc) { 

override def getReceiver(): NetworkReceiver[PriceUpdate] = { 

newPriceReceiver( ) 

}} ssc. checkpoint("spark") 

ssc. registerInputStream( stream) 

val reduce = (reduced: (Double, Int), pair: (Double, Int)) => { 

if(pair._1>0)(reduced._1 + pair. 1, reduced. 2 + pair. 2) 

else(reduced._1 + pair. 1, reduced. 2 - pair. 2) 

} 

val invReduce = (reduced: (Double, Int), pair: (Double, Int)) => { 

if(pair._1 >0)(reduced._1 + pair._1, reduced. 2 — pair._2) 

else(reduced._1 + pair. 1, reduced. 2 + pair. 2) 

} 

Val sectorPriceChanges = stream.map(pu =>(listingSectors(pu. id), 

(pu. price — pu. lastPrice, 1))) 

val windowedPriceChanges = sectorPriceChanges. reduceByKeyAndWindow ( reduce, invReduce, 
Seconds (5 * 60),Seconds(15) ) 

val positivePriceChanges = windowedPriceChanges. filter{case(_,(_, count)) => count > 0} 
val priceChangesToSector = positivePriceChanges. map{case(sector, (value, count)) =>(value * 
count, sector) } 

val sortedSectors = priceChangesToSector. transform(rdd => rdd. sortByKey(false)).map(_. 2) 
sortedSectors. foreach(rdd => { 

println("""| ---------~--~---------------=-=---=--=------- == 

|Positive Trending (Time: %d ms) 

| 
|""". stripMargin. format(currentTimeMillis + rdd. take(5). map(sectorCodes(_)). mkString("\ 
n"))}) 


ssc. start() 




















Real estate 

Telecommunication 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 


Real estate 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 

Electrical appliances & components 
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Positive Trending (Time: 1375269270034 ms) 
Environmental services & recycling 
Agriculture & fishery 

Electrical appliances & components 
Vehicles 

Precious metals & precious stones 


4. 应 用 场景 


可 通过 这 个 示例 开发 自己 的 流 数据 分 析 应 用 。 数 据 源 可 以 是 仆 虫 抓 取 的 数据 ,也 可 以 


是 消息 中 间 件 输出 的 数据 等 待 。 


Spark 是 整个 Spark 生态 系统 的 底层 核心 引擎 ,单一 的 Spark 框架 并 不 能 完成 所 有 计 


算 范式 任务 。 如 果 有 更 复杂 的 数据 分 析 需 求 ,就 需要 借助 Spark 的 上 





层 组 件 。 例 如 ,为 了 分 


析 大 规模 图 数据 ,需要 借助 GraphX 构建 内 存 的 图 存储 结构 ,然后 通过 BSP 模型 迭代 算法 。 
为 了 进行 机 器 学 习 , 需 要 借助 MLlib 底层 实现 的 SGD 等 优化 算法 进行 搜索 和 优化 。 分 析 
流 数 据 需要 借助 Spark Streaming 的 流 处 理 框架 ,将 流 数 据 转换 为 RDD, 输 入 与 分 析 流 数 
据 。 如 果 进 行 SQL 查询 或 者 交互 式 分 析 , 就 需要 借助 Spark SQL 这 个 查询 引擎 将 SQL 翻 


译 为 SparkJob。 


16.3 本章 小 结 


本 章 介 绍 了 使 用 Intellij IDEA 构建 Spark 开发 环境 ,并 列举 了 应 用 Spark 计算 框架 的 


WordCount 和 基于 Spark Streaming 股票 趋势 预测 案例 。 
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大 数据 云 环境 下 ,各 行业 和 领域 的 安全 需求 正在 发 生 改 变 , 从 数据 采集 、 数 据 整合 .数据 
提炼 .数据 挖掘 到 数据 发 布 , 这 一 流程 已 经 形成 新 的 完整 链条 。 随 着 数据 的 进一步 集中 和 数 
据 量 的 增 大 ,对 产业 链 中 的 数据 进行 安全 防护 变 得 更 加 困难 。 同 时 , 云 计算 环境 中 ,数据 的 
分 布 式 ,协作 式 、 开 放 式 处 理 也 加 大 了 数据 泄露 的 风险 ,在 大 数据 的 应 用 过 程 中 ,如 何 确保 信 
息 资源 不 被 泄露 是 要 重点 考虑 的 问题 。 然 而 , 现 有 的 信息 安全 手段 已 不 能 满足 大 数据 云 时 
代 的 信息 安全 要 求 ,安全 威胁 将 逐渐 成 为 制约 大 数据 技术 发 展 的 瓶颈 。 


17.1 大 数据 云 计算 的 安全 问题 


17.1.1 大 数据 基础 设施 安全 威胁 


基础 设施 包括 存储 设备 .运算 设备 .一 体 机 和 其 他 基础 软件 (如 虚拟 化 软件 ) 等 。 为 了 支 
持 大 数据 的 应 用 ,需要 创建 支持 大 数据 云 环 境 的 基础 设施 。 例 如 ,需要 高 速 的 网 络 来 收集 各 
种 数据 源 ,大 规模 的 存储 设备 对 海量 数据 进行 存储 ,还 需要 各 种 服务 器 和 计算 设备 对 数据 进 
行 分 析 与 应 用 ,并 且 这 些 基 础 设施 带 有 虚拟 化 和 分 布 式 性 质 等 特点 。 这 些 基 础 设施 给 用 户 
带 来 各 种 大 数据 新 应 用 的 同时 ,也 会 遭受 到 安全 威胁 。 

(1) 非 授权 访问 。 即 没有 预先 经 过 同意 ,就 使 用 网 络 或 计算 机 资源 。 例 如 ,有 意 避 开 系 
统 访问 控制 机 制 , 对 网 络 设备 及 资源 进行 非 正常 使 用 ,或 擅自 扩大 使 用 权限 ,越权 访问 信息 。 
主要 形式 有 假冒 .身份 攻击 ,非法 用 户 进 入 网 络 系统 进行 违法 操作 ,以 及 合法 用 户 以 未 授权 
方式 进行 操作 等 。 

(2) 信息 泄露 或 丢失 。 包 括 数据 在 传输 中 泄露 或 丢失 (例如 利用 电磁 泄漏 或 搭 线 窃听 
方式 截获 机 密 信息 .或 通过 对 信息 流向 .流量 、 通 信 频 度 和 长 度 等 参数 的 分 析 , 窃 取 有 用 信息 
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等 ) ,在 存储 介质 中 丢失 或 泄漏 ,以 及 “黑客 "通过 建立 隐蔽 隧道 窍 取 敏 感 信 息 等 。 

(3) 网 络 基础 设施 传输 过 程 中 破坏 数据 完整 性 。 大 数据 采用 的 分 布 式 和 虚拟 化 架构 意 
味 着 比 传统 的 基础 设施 有 更 多 的 数据 传输 ,大 量 数据 在 一 个 共享 的 系统 里 被 集成 和 复制 , 当 
加 密 强 度 不 够 的 数据 在 传输 时 ,攻击 者 能 通过 实施 嗅 探 . 中 间 人 攻击 . 重 放 攻 击 来 窃取 或 自 
改 数据 。 

(4) 拒绝 服务 攻击 。 即 通过 对 网 络 服务 系统 的 不 断 干扰 ,改变 其 正常 的 作业 流程 或 执 
行 无 关 程序 ,导致 系统 响应 迟缓 ,影响 合法 用 户 的 正常 使 用 ,甚至 使 合法 用 户 遭 到 排斥 ,不 能 
得 到 相应 的 服务 。 

(5) 网 络 病毒 传播 。 即 通过 信息 网 络 传播 计算 机 病毒 。 针 对 虚拟 化 技术 的 安全 漏洞 
攻击 ,黑客 可 利用 虚拟 机 管理 系统 自身 的 漏洞 入 侵 到 宿主 机 或 同一 个 宿主 机 的 其 他 虚 
拟 机 。 


17.1.2 大 数据 存储 安全 威胁 


大 数据 规模 的 爆发 性 增长 对 云 存 储 架 构 产 生 新 的 需求 ,大 数据 分 析 应 用 需求 也 在 推动 
着 IT 技术 及 计算 技术 的 发 展 。 大 数据 的 规模 通常 可 达到 PB 量 级 ,结构 化 数据 和 非 结 构 化 
数据 混杂 其 中 ,数据 的 来 源 多 种 多 样 ,传统 的 结构 化 存储 系统 已 经 无 法 满足 大 数据 应 用 的 需 
要 ,因此 需要 采用 面向 大 数据 处 理 的 存储 系统 架构 。 大 数据 存储 系统 要 有 强大 的 扩展 能 力 ， 
可 以 通过 增加 模块 或 磁盘 存储 来 增加 容量 ; 大 数据 存储 系统 的 扩展 要 操作 简便 快速 ,操作 
甚至 不 需要 停机 。 在 此 种 背景 下 ,Scale-out 云 架 构 越 来 越 受 到 青睐 。Scale-out 是 指 根据 需 
求 增加 不 同 的 动态 扩展 虚拟 服务 器 和 虚拟 存储 ,通过 协同 运算 、 负 载 平衡 及 容错 等 功能 来 提 
高 运算 能 力 及 可 靠 度 。 与 传统 烟 图 式 架构 完全 不 同 ,Scale-out 架构 可 以 实现 无 颖 平滑 的 扩 
展 ,避免 产生 “存储 孤岛 ”。 

在 传统 的 数据 安全 中 ,数据 存储 是 非法 入 侵 的 最 后 环节 ,目前 已 形成 完善 的 安全 防护 体 
系 。 大 数据 对 存储 的 需求 主要 体现 在 海量 数据 处 理 、 大 规模 集群 管理 \ 低 延迟 读 写 速度 和 较 
低 的 建设 及 运营 成 本 方面 。 大 数据 时 代 的 数据 非常 繁杂 ,其 数据 量 非常 惊人 ,保证 这 些 信息 
数据 在 有 效 利用 之 前 的 安全 是 一 个 重要 话题 。 在 数据 应 用 的 生命 周期 中 ,数据 存储 是 一 个 
关键 环节 ,数据 停留 在 此 阶段 的 时 间 最 长 。 目 前 ,可 采用 关系 型 (SQL) 数 据 库 和 非 关系 型 
(Not Only SQL, NoSQL) 数 据 库 进行 存储 。 

1. 关系 型 数据 库存 储 安全 

通过 SQL 数据 库 的 ACID 模型 可 以 知道 ,传统 的 关系 型 数据 库 虽 然 因 为 通用 性 设计 带 
来 了 性 能 上 的 限制 ,但 可 以 通过 云 服 务 提 供 较 强 的 横向 扩展 能 力 。 关 系 型 数据 库 的 优点 除 
了 较 强 的 并 发 读 写 能 力 ,数据 强 一致 性 保障 ,很 强 的 结构 化 查询 与 复杂 分 析 能 力 和 标准 的 数 
据 访 问 接口 外 ,还 包括 如 下 优点 : 

(1) 操作 方便 。 关 系 型 数据 库 通过 应 用 程序 和 后 台 连 接 ,方便 用 户 对 数据 的 操作 。 

(2) 易于 维护 。 关 系 型 数据 库 具有 非常 好 的 完整 性 ,包括 实体 完整 性 、 参 照 完 整 性 和 用 
户 定义 完整 性 ,大 大 降低 了 数据 元 余 和 数据 不 一 致 的 概率 。 

(3) 便于 访问 数据 。 关 系 型 数据 库 提供 了 诸如 视图 、 存 储 过 程 、 触 发 器 、 索 引 等 对 象 。 

(4) 更 安全 便捷 。 关 系 型 数据 库 的 权限 分 配 和 管理 使 其 较 以 往 的 数据 库 在 安全 性 上 要 
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高 很 多 。 

通常 ,数据 结构 化 对 于 数据 库 开 发 和 数据 防护 有 着 非常 重要 的 作用 。 结 构 化 的 数据 便 
于 管理 .加密 、 处 理 和 分 类 ,能 够 有 效 地 智能 分 辩 非 法 入 侵 数 据 。 数 据 结 构 化 虽然 不 能 够 彻 
底 避 免 数 据 安全 风险 ,但 是 能 够 加 快 数据 安全 防护 的 效果 。 

关系 型 数据 库 所 具有 的 ACID 特性 保证 了 数据 库 交易 的 可 靠 处 理 。 关 系 型 数据 库 通 过 
集成 的 安全 功能 保证 数据 的 机 密 性 、 完 整 性 和 可 用 性 ,例如 基于 角色 的 访问 控制 .数据 加 密 
机 制 . 支 持 行 和 列 访问 控制 等 。 

关系 型 数据 库 也 存在 很 多 瓶颈 ,包括 不 能 有 效 地 处 理 多 维 数据 ,不 能 有 效 地 处 理 半 结 构 
化 和 非 结 构 化 的 海量 数据 ,高 并 发 读 写 性 能 低 , 支 撑 容 量 有 限 ,数据 库 的 可 扩展 性 和 可 用 性 
低 , 建 设 和 运 维 成 本 高 等 。 

2. 非 关 系 型 数据 库存 储 安全 

由 于 大 数据 具备 数据 量 大 、 多 数据 类 型 .增长 速度 快 和 价值 密度 低 的 特点 ,采用 传统 关 
系 型 数据 库 管理 技术 往往 面临 成 本 支出 过 多 、 扩 展 性 差 \ 数 据 快速 查询 困难 等 问题 。 对 于 占 
数据 总 量 80% 以 上 的 非 结构 化 数据 ,通常 采用 NoSQL 技术 完成 对 大 数据 的 存储 ,管理 和 处 
H, NoSQL 指 的 是 非 关 系 型 数据 库 ,包含 大 量 不 同类 型 结构 化 数据 和 非 结 构 化 数据 的 数据 
存储 。 和 关系 型 分 布 式 数据 库 的 ACID 理论 基础 相对 , 非 关系 型 数据 库 的 理论 基础 是 
BASE 模型 。 

从 NoSQL 的 理论 基础 可 以 知道 ,由 于 数据 多 样 性 , 非 关 系数 据 并 不 是 通过 标准 SQL 
语言 进行 访问 的 。NoSQL 数据 存储 方法 的 主要 优点 是 数据 的 可 扩展 性 和 可 用 性 、 数 据 存储 
的 灵活 性 。 每 个 数据 的 镜像 都 存储 在 不 同 地 点 以 确保 数据 可 用 性 。NoSQL 的 不 足 之 处 是 
在 数据 一 致 性 方面 需要 应 用 层 保障 ,结构 化 查询 统计 能 力也 较 弱 。 

NoSQL 带 来 以 下 安全 挑战 : 

(1) 模式 成 熟 度 不 够 。 目 前 的 标准 SQL 技术 包括 严格 的 访问 控制 和 隐私 管理 工具 ,而 
在 NoSQL 模式 中 并 没有 这 样 的 要 求 。 事 实 上 ,NoSQL 无 法 沿用 SQL 的 模式 , 它 应 该 有 自 
己 的 新 模式 。 例 如 ,与 传统 SQL 数据 存储 相 比 ,在 NoSQL 数据 存储 中 列 和 行 级 的 安全 性 
更 为 重要 。 此 外 ,NoSQL 允许 不 断 地 对 数据 记录 添加 属性 ,需要 为 这 些 新 属性 定义 安全 
策略 。 

(2) 系统 成 熟 度 不 够 。 在 饱 受 各 种 安全 问题 的 困扰 后 ,关系 型 数据 库 和 文件 服务 器 系 
统 的 安全 机 制 已 经 变 得 比较 成 熟 。 虽 然 NoSQL 可 以 从 关系 型 数据 库 安 全 设计 中 学 习 经 验 
教训 ,但 至 少 在 几 年 内 NoSQL 仍然 会 存在 各 种 漏洞 。 

(3) 客户 端 软 件 问题 。 由 于 NoSQL 服务 器 软件 没有 内 置 足够 的 安全 机 制 , 因 此 必须 对 
访问 这 些 软件 的 客户 端 应 用 程序 提供 安全 措施 ,这 样 又 会 产生 其 他 问题 。 

O 身份 验证 和 授权 功能 。 该 安全 措施 使 应 用 程序 更 复杂 。 例 如 ,应 用 程序 需要 定义 用 
户 和 角色 ,并 且 需 要 决定 是 否 向 用 户 授权 访问 权限 。 

© SQL 注入 问题 。 困 扰 着 关系 型 数据 库 应 用 程序 的 问题 又 继续 困扰 NoSQL 数据 库 。 
例如 ,在 2011 年 的 Black Hat 会 议 上 .研究 人 员 展 示 了 黑客 如 何 利 用 “NoSOL 注入 ”来 访问 
受 限 制 的 信息 。 

O 代码 容易 产生 漏洞 。 市 面 上 有 很 多 NoSQL 产品 和 应 用 程序 ,应 用 程序 越 多 ,产生 漏 
洞 就 越 多 。 
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(4) 数据 元 余 和 分 散 性 问题 。 关 系 型 数据 库 通常 在 相同 位 置 存储 数据 。 但 大 数据 系统 
完全 采用 另外 一 种 模式 ,将 数据 分 散在 不 同 地 理 位 置 .不 同 服务 器 中 ,以 实现 数据 的 优化 查 
询 处 理 及 容 灾 备 份 。 这 种 情况 下 难以 定位 这 些 数据 并 进行 保护 。 

非 关系 型 数据 的 优势 是 扩展 简单 . 读 写 快 速 和 成 本 低廉 ,但 存在 很 多 劣势 ,例如 不 提供 
对 SQL 的 支持 ,产品 不 够 成 熟 ,很 难 实现 数据 的 完整 性 ,缺乏 强 有 力 的 技术 支持 等 。 因 此 ， 
开源 数据 库 从 出 现 到 被 用 户 接受 需要 一 个 漫长 的 过 程 。 


17.1.3 大 数据 云 架 构 网 络 安全 威胁 


因特网 及 移动 因特网 的 快速 发 展 不 断 地 改变 人 们 的 工作 .生活 方式 ,同时 也 带 来 严重 的 
安全 威胁 。 网 络 面临 的 风险 可 分 为 广度 风险 和 深度 风险 。 广 度 风险 是 指 安全 问题 随 网 络 节 
点 数量 的 增加 呈 指 数 级 上 升 。 深 度 风 险 是 指 传统 攻击 依然 存在 且 手段 多 样 ; APT( 高 级 持 
续 性 威胁 ) 攻 击 逐 渐 增 多 且 造 成 的 损失 不 断 增 大 ; 攻击 者 的 工具 和 手段 呈现 平台 化 、 集 成 化 
和 自动 化 的 特点 ,具有 更 强 的 隐蔽 性 更 长 的 攻击 与 潜伏 时 间 、 更 加 明确 和 特定 的 攻击 目标 。 
结合 广度 风险 与 深度 风险 ,大 规模 网 络 主要 面临 的 问题 包括 安全 数据 规模 巨大 ; 安全 事件 
难以 发 现 ; 安全 的 整体 状况 无 法 描述 ; 安全 态势 难以 感知 等 。 

通过 上 述 分 析 , 网 络 安全 是 大 数据 安全 防护 的 重要 内 容 。 现 有 的 安全 机 制 对 大 数据 环 
境 下 的 网 络 安全 防护 并 不 完美 。 一 方面 ,大 数据 时 代 的 信息 爆炸 导致 来 自 网 络 的 非法 入 侵 
次 数 急剧 增长 ,网络 防御 形势 十 分 严峻 。 另 一 方面 ,由 于 攻击 技术 的 不 断 成 熟 ,现在 的 网 络 
攻击 手段 越 来 越 难以 辨识 ,给 现 有 的 数据 防护 机 制 带 来 了 巨大 的 压力 。 因 此 ,对 于 大 型 网 
络 , 在 网 络 安 全 层面 ,除了 访问 控制 .入侵 检 测 、 身 份 识别 等 基础 防御 手段 外 ,还 需要 管理 人 
员 能 够 及 时 感知 网 络 中 的 异常 事件 与 整体 安全 态势 ,从 成 千 上 万 的 安全 事件 和 日 志 中 找到 
最 有 价值 .最 需要 处 理 和 解决 的 安全 问题 ,从 而 保障 网 络 的 安全 状态 。 


17.1.4 大 数据 带 来 隐私 问题 


大 数据 通常 包含 了 大 量 的 用 户 身份 信息 、 属 性 信息 、 行 为 信息 ,在 大 数据 应 用 的 各 阶段 
内 如 果 不 能 保护 好 大 数据 , 极 易 造成 用 户 隐私 泄露 。 此 外 ,大 数据 的 多 源 性 使 得 来 自 各 个 汇 
道 的 数据 可 以 用 来 进行 交叉 检验 。 过 去 ,一 些 拥有 数据 的 企业 经 常 提供 经 过 简单 匿名 化 的 
数据 作为 公开 的 测试 集 ,在 大 数据 环境 下 ,多 源 交叉 验证 有 可 能 发 现 匿名 化 数据 后 面 的 真实 
用 户 ,同样 会 导致 隐私 湛 露 。 

隐私 泄露 成 为 大 数据 必须 要 面 对 且 急需 解决 的 问题 。 大 数据 时 代 , 现 有 的 隐私 保护 技 
术 手段 还 不 够 完善 ,除了 要 健全 个 人 隐私 保护 的 法 律 法 规 和 基本 规则 之 外 ,还 应 鼓励 隐私 保 
护 技术 的 研发 .创新 和 使 用 ,从 技术 层面 来 保障 隐私 安全 ,完善 用 户 保障 体系 。 此 外 ,推动 大 
数据 产品 在 个 人 隐私 安全 方面 标准 的 制定 ,提倡 行业 在 用 户 隐私 保护 领域 自律 ,并 制定 相应 
的 行业 标准 或 公约 。 

1. 大 数据 中 的 隐私 泄露 

传统 数据 安全 往往 是 围绕 数据 生命 周期 来 部 署 的 , 即 数据 的 产生 、 存 储 、 使 用 和 销毁 。 
随 着 大 数据 应 用 越 来 越 多 ,数据 的 拥有 者 和 管理 者 相 分 离 ,原来 的 数据 生命 周期 逐渐 转变 成 
数据 的 产生 ,传输 .存储 和 使 用 。 由 于 大 数据 的 规模 没有 上 限 ,许多 数据 的 生命 周期 极为 短 
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(4) 数据 元 余 和 分 散 性 问题 。 关 系 型 数据 库 通常 在 相同 位 置 存储 数据 。 但 大 数据 系统 
完全 采用 另外 一 种 模式 ,将 数据 分 散在 不 同 地 理 位 置 .不 同 服务 器 中 ,以 实现 数据 的 优化 查 
询 处 理 及 容 灾 备 份 。 这 种 情况 下 难以 定位 这 些 数据 并 进行 保护 。 

非 关系 型 数据 的 优势 是 扩展 简单 . 读 写 快 速 和 成 本 低廉 ,但 存在 很 多 劣势 ,例如 不 提供 
对 SQL 的 支持 ,产品 不 够 成 熟 ,很 难 实现 数据 的 完整 性 ,缺乏 强 有 力 的 技术 支持 等 。 因 此 ， 
开源 数据 库 从 出 现 到 被 用 户 接受 需要 一 个 漫长 的 过 程 。 


17.1.3 大 数据 云 架 构 网 络 安全 威胁 


因特网 及 移动 因特网 的 快速 发 展 不 断 地 改变 人 们 的 工作 .生活 方式 ,同时 也 带 来 严重 的 
安全 威胁 。 网 络 面临 的 风险 可 分 为 广度 风险 和 深度 风险 。 广 度 风险 是 指 安全 问题 随 网 络 节 
点 数量 的 增加 呈 指 数 级 上 升 。 深 度 风 险 是 指 传统 攻击 依然 存在 且 手段 多 样 ; APT( 高 级 持 
续 性 威胁 ) 攻 击 逐 渐 增 多 且 造 成 的 损失 不 断 增 大 ; 攻击 者 的 工具 和 手段 呈现 平台 化 、 集 成 化 
和 自动 化 的 特点 ,具有 更 强 的 隐蔽 性 更 长 的 攻击 与 潜伏 时 间 、 更 加 明确 和 特定 的 攻击 目标 。 
结合 广度 风险 与 深度 风险 ,大 规模 网 络 主要 面临 的 问题 包括 安全 数据 规模 巨大 ; 安全 事件 
难以 发 现 ; 安全 的 整体 状况 无 法 描述 ; 安全 态势 难以 感知 等 。 

通过 上 述 分 析 , 网 络 安全 是 大 数据 安全 防护 的 重要 内 容 。 现 有 的 安全 机 制 对 大 数据 环 
境 下 的 网 络 安全 防护 并 不 完美 。 一 方面 ,大 数据 时 代 的 信息 爆炸 导致 来 自 网 络 的 非法 入 侵 
次 数 急剧 增长 ,网络 防御 形势 十 分 严峻 。 另 一 方面 ,由 于 攻击 技术 的 不 断 成 熟 ,现在 的 网 络 
攻击 手段 越 来 越 难以 辨识 ,给 现 有 的 数据 防护 机 制 带 来 了 巨大 的 压力 。 因 此 ,对 于 大 型 网 
络 , 在 网 络 安 全 层面 ,除了 访问 控制 .入侵 检 测 、 身 份 识别 等 基础 防御 手段 外 ,还 需要 管理 人 
员 能 够 及 时 感知 网 络 中 的 异常 事件 与 整体 安全 态势 ,从 成 千 上 万 的 安全 事件 和 日 志 中 找到 
最 有 价值 .最 需要 处 理 和 解决 的 安全 问题 ,从 而 保障 网 络 的 安全 状态 。 


17.1.4 大 数据 带 来 隐私 问题 


大 数据 通常 包含 了 大 量 的 用 户 身份 信息 、 属 性 信息 、 行 为 信息 ,在 大 数据 应 用 的 各 阶段 
内 如 果 不 能 保护 好 大 数据 , 极 易 造成 用 户 隐私 泄露 。 此 外 ,大 数据 的 多 源 性 使 得 来 自 各 个 汇 
道 的 数据 可 以 用 来 进行 交叉 检验 。 过 去 ,一 些 拥有 数据 的 企业 经 常 提供 经 过 简单 匿名 化 的 
数据 作为 公开 的 测试 集 ,在 大 数据 环境 下 ,多 源 交叉 验证 有 可 能 发 现 匿名 化 数据 后 面 的 真实 
用 户 ,同样 会 导致 隐私 湛 露 。 

隐私 泄露 成 为 大 数据 必须 要 面 对 且 急需 解决 的 问题 。 大 数据 时 代 , 现 有 的 隐私 保护 技 
术 手段 还 不 够 完善 ,除了 要 健全 个 人 隐私 保护 的 法 律 法 规 和 基本 规则 之 外 ,还 应 鼓励 隐私 保 
护 技术 的 研发 .创新 和 使 用 ,从 技术 层面 来 保障 隐私 安全 ,完善 用 户 保障 体系 。 此 外 ,推动 大 
数据 产品 在 个 人 隐私 安全 方面 标准 的 制定 ,提倡 行业 在 用 户 隐私 保护 领域 自律 ,并 制定 相应 
的 行业 标准 或 公约 。 

1. 大 数据 中 的 隐私 泄露 

传统 数据 安全 往往 是 围绕 数据 生命 周期 来 部 署 的 , 即 数据 的 产生 、 存 储 、 使 用 和 销毁 。 
随 着 大 数据 应 用 越 来 越 多 ,数据 的 拥有 者 和 管理 者 相 分 离 ,原来 的 数据 生命 周期 逐渐 转变 成 
数据 的 产生 ,传输 .存储 和 使 用 。 由 于 大 数据 的 规模 没有 上 限 ,许多 数据 的 生命 周期 极为 短 
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暂 , 因 此 常规 安全 产品 要 想 继续 发 挥 作用 , 则 需要 解决 如 何 根据 数据 存储 和 处 理 的 动态 化 、 
并 行 化 特征 ,动态 跟踪 数据 边界 ,管理 对 数据 的 操作 行为 等 。 

大 数据 中 的 隐私 泄露 有 以 下 表现 形式 : 

(1) 在 数据 存储 的 过 程 中 对 用 户 隐私 权 造 成 的 侵犯 。 大 数据 中 用 户 无 法 知道 数据 确切 
的 存放 位 置 ,用 户 对 其 个 人 数据 的 采集 、 存 储 、 使 用 、 分 享 无 法 有 效 控制 。 

(2) 在 数据 传输 的 过 程 中 对 用 户 隐 私 权 造 成 的 侵犯 。 大 数据 环境 下 数据 传输 将 更 为 开 
放 和 多 元 化 ,传统 物理 区 域 隔离 的 方法 无 法 有 效 保证 远 距 离 传输 的 安全 性 ,电磁 泄漏 和 窃听 
将 成 为 更 加 突出 的 安全 威胁 。 

(3) 在 数据 处 理 的 过 程 中 对 用 户 隐私 权 造 成 的 侵犯 。 大 数据 环境 下 可 能 部 署 大 量 的 虚 
拟 技术 ,基础 设施 的 脆弱 性 和 加 密 措施 的 失效 可 能 产生 新 的 安全 风险 。 大 规模 的 数据 处 理 
需要 完备 的 访问 控制 和 身份 认证 管理 ,以 避免 未 经 授权 的 数据 访问 ,但 资源 动态 共享 的 模式 
无 疑 增加 了 这 种 管理 的 难度 ,账户 劫持 、 攻 击 、 身 份 伪装 .认证 失效 、 密 钥 丢 失 等 都 可 能 威胁 
用 户 数 据 安全 。 

2. 法 律 和 监管 

海量 数据 的 汇集 加 大 了 国家 、 企 业 机 密 信 息 泄露 的 可 能 性 ,对 大 数据 的 无 序 使 用 也 增加 
了 敏感 信息 泄露 的 危险 。 在 政府 层面 ,建议 明确 重点 领域 数据 库 范围 ,制定 完善 的 重点 领域 
数据 库 管 理 和 安全 操作 制度 ,加 强 日 常 监管 。 在 企业 层面 ,需要 加 强 企业 内 部 管理 ,制定 设 
备 特别 是 移动 设备 安全 使 用 规程 ,规范 大 数据 的 使 用 方法 和 流程 。 


17.1.5 针对 大 数据 的 高 级 持续 性 攻击 


美国 国家 标准 和 技术 研究 院 对 APT 给 出 了 详细 定义 :“ 精 通 复杂 技术 的 攻击 者 利用 多 
种 攻击 向 量 (如 网 络 、 物 理 和 欺诈 ) 借 助 丰 富 资源 创建 机 会 实现 自己 的 目的 ”这些 目的 通常 
包括 对 目标 企业 的 信息 技术 架构 进行 算 改 ,从 而 盗 取 数据 (如 数据 从 内 网 输送 到 外 网 ) ,执行 
或 阻止 一 项 任务 ,程序 ; 又 或 者 潜入 对 方 架 构 中 偷 取 数 据 。 

APT 的 威胁 主要 包括 : 

d) 长 时 间 重 复 这 种 操作 。 

(2) 适应 防御 者 ,从 而 产生 抵抗 能 力 。 

(3) 维持 在 所 需 的 互动 水 平 以 执行 偷 取 信息 的 操作 。 

简 言 之 ,APT 就 是 长 时 间 窃 取 数 据 。 作 为 一 种 有 目标 、 有 组 织 的 攻击 方式 , APT 在 流 
程 上 同 普 通 攻击 行为 并 无 明显 区 别 , 但 在 具体 攻击 步骤 上 ,APT 体现 出 以 下 特点 ,使 其 具备 
更 强 的 破坏 性 。 

(1) 攻击 行为 特征 难以 提取 。APT 普遍 采用 Oday 漏洞 获取 权限 ,通过 未 知 木马 进行 
远程 控制 。 

(2) 单 点 隐蔽 能 力 强 。 为 了 躲避 传统 检测 设备 ,APT 更 加 注重 动态 行为 和 静态 文件 的 
隐蔽 性 。 

(3) 攻击 渠道 多 样 化 。 被 曝光 的 知名 APT 事件 中 ,社交 攻击 、0day 漏洞 利用 等 方式 层 
出 不 穷 。 

(4) 攻击 持续 时 间 长 。APT 攻击 分 为 多 个 步骤 ,从 最 初 的 信息 搜集 到 信息 窃取 并 外 传 
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往往 要 经 历 几 个 月 甚至 更 长 的 时 间 。 

在 新 形势 下 ,APT 可 能 将 大 数据 作为 主要 攻击 目标 ,APT 攻击 的 上 述 特点 使 得 传统 以 
实时 检测 、 实 时 阻 断 为 主体 的 防御 方式 难以 有 效 发 挥 作用 。 在 同 APT 的 对 抗 中 必须 转换 
思路 ,采取 新 的 检测 方式 ,以 应 对 新 挑战 。 


17.1.6 其 他 安全 威胁 


大 数据 除了 在 基础 设施 .存储 网 络 ,隐私 等 方面 面临 上 述 安全 威胁 外 ,还 包括 如 下 
方面 。 

1. 网 络 化 社会 使 大 数据 易 成 为 攻击 目标 

以 论坛 .博客 、 微 博 、 社 交 网 络 .视频 网 站 为 代表 的 新 媒体 形式 促成 网 络 化 社会 的 形成 ， 
在 网 络 化 社会 中 ,信息 的 价值 要 超过 基础 设施 的 价值 , 极 易 吸引 黑客 的 攻击 。 另 一 方面 ,网 
络 化 社会 中 大 数据 列 涵 着 人 与 人 之 问 的 关系 与 联系 ,使 得 黑客 成 功 攻击 一 次 就 能 获得 更 多 
数据 ,无 形 中 降低 了 黑客 的 进攻 成 本 ,增加 了 攻击 收益 。 近 年 来 ,从 因特网 上 发 生 用 户 账 号 
的 信息 失窃 等 连锁 反应 可 以 看 出 ,大 数据 更 容易 吸引 黑客 ,而 且 一 旦 遭受 攻击 ,造成 的 损失 
十 分 惊人 。 

2. 大 数据 滥用 风险 

计算 机 网 络 技术 和 人 工 智能 的 发 展 为 大 数据 自动 收集 及 智能 动态 分 析 提 供 了 方便 。 但 
是 ,大 数据 技术 被 滥用 或 者 误 用 也 会 带 来 安全 风险 。 一 方面 ,大 数据 本 身 的 安全 防护 存在 漏 
洞 。 对 大 数据 的 安全 控制 力度 仍然 不 够 ,API 访问 权限 控制 及 密 钥 生成 .存储 和 管理 方面 的 
不 足 都 可 能 造成 数据 泄漏 。 另 一 方面 ,攻击 者 也 在 利用 大 数据 技术 进行 攻击 。 例 如 ,黑客 能 
够 利用 大 数据 技术 最 大 限度 地 收集 更 多 用 户 ,敏感 信息 。 

3. 大 数据 误 用 风险 

大 数据 的 准确 性 、 数 据 质 量 及 使 用 大 数据 做 出 的 决定 可 能 会 产生 影响 。 例 如 ,从 社交 媒 
体 获 取 个 人 信息 的 准确 性 ,基本 的 个 人 资料 如 年 龄 .婚姻 状况 .教育 或 者 就 业 情况 等 通常 都 
是 未 经 验证 的 ,分 析 结 果 可 信 度 不 高 。 另 一 个 是 数据 的 质量 ,从 公众 渠道 收集 到 的 信息 可 能 
与 需求 相关 度 较 小 。 这 些 数据 的 价值 密度 较 低 ,如 果 对 其 进行 分 析 会 产生 无 效 的 结果 ,从 而 
导致 错误 的 决策 。 











17.2 不 同 领域 大 数据 的 安全 需求 


大 数据 是 信息 化 时 代 的 石油 ,在 这 个 时 代 , 计 算 机 正在 从 追求 计算 速度 转变 为 追求 大 数 
据 处 理 能 力 ,软件 也 将 从 业务 功能 为 主 转变 为 以 数据 为 中 心 。 大 数据 云 计算 不 再 仅仅 局 限 
在 科研 机 构 的 内 部 探索 , 它 犹 如 一 场 数据 旋风 开始 席卷 全 球 。 随 着 对 大 数据 的 关注 ,有 关 大 
数据 安全 的 行动 也 已 经 展开 ,包括 科研 机 构 、 政 府 组 织 、 应 用 企业 、 安 全 厂商 等 在 内 的 各 方 力 
量 , 正 在 积极 推动 与 大 数据 安全 相关 标准 的 制定 和 产品 研发 ,为 大 数据 的 大 规模 应 用 葛 定 更 
加 坚实 的 基础 。 在 理解 大 数据 安全 内 涵 、 制 定 相应 策略 之 前 ,有 必要 对 各 领域 大 数据 的 安全 
需求 进行 全 面 了 解 和 掌握 ,以 分 析 大 数据 环境 下 的 安全 特征 与 要 素 。 
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17.2.1 因特网 行业 


因特网 产生 了 大 数据 , 云 计算 和 物 联 网 又 进一步 推动 了 数据 的 暴涨 。“ 对 大 数据 进行 整 
理 , 分 析 和 挖掘 能 够 为 企业 创造 更 多 价值 ”这 一 理念 已 得 到 因特网 行业 的 普遍 认可 和 重视 ， 
众多 因特网 企业 相继 开始 了 自己 的 大 数据 应 用 。 例 如 亚马逊 .Google、Facebook、 淘 宝 、 腾 
讯 .百度 均 加 大 研发 投入 ,推出 基于 大 数据 的 精准 营销 服务 解决 方案 。 

因特网 公司 在 应 用 大 数据 时 常会 涉及 数据 安全 和 隐私 保护 问题 。 由 于 用 户 隐 私 和 商业 
机 密 涉及 的 技术 领域 繁多 、 机 理 复杂 ,很 难 有 专家 可 以 贯通 法 理 与 专业 技术 ,界定 出 由 于 个 
人 隐私 和 商业 机 密 的 传播 而 产生 的 损失 ,并 且 也 很 难 界 定 侵 权 主 体 是 出 于 个 人 目的 还 是 企 
业 行 为 。 随 着 电子 商务 、 手 机 上 网 行为 的 发 展 ,因特网 企业 的 网 站 受到 攻击 的 情况 也 比 以 前 
更 为 隐蔽 ,攻击 的 目的 也 并 不 仅 是 让 服务 器 宕 机 ,更 多 是 以 渗透 APT 的 攻击 方式 进行 。 此 
外 ,几乎 所 有 数据 安全 都 是 由 网 络 运营 服务 商 负责 ,但 安全 责任 却 并 未 受到 法 律 的 严格 
保护 。 

因此 ,因特网 企业 的 大 数据 安全 需求 是 对 大 数据 进行 有 效 的 安全 存储 和 智能 挖掘 分 析 ， 
严格 执行 大 数据 安全 监管 和 审批 管理 ,呼唤 针对 用 户 隐 私 保护 的 安全 标准 、 法 律 法 规 . 行 业 
规范 .企业 意识 ,从 而 在 海量 数据 中 合理 发 现 和 发 掘 商业 机 会 与 商业 价值 。 


17.2.2 电信 行业 


运营 商 记录 了 大 量 的 用 户 信息 ,如 用 户 属性 .通信 消费 数据 .GPS 行走 轨迹 、 登 录 网 站 
偏好 、 频 率 等 内 容 , 图 17-1 给 出 了 通信 网 络 中 大 数据 的 分 布 情况 。 对 大 数据 进行 全 面 、 深 
入 、 实 时 的 分 析 和 应 用 是 运营 商 应 对 新 形势 下 的 挑战 ,避免 沦 为 管道 的 关键 。 运 营 商 期 望 利 
用 已 掌握 的 数据 更 加 精准 地 洞察 客户 需求 ,提升 自身 智能 化 水 平和 行业 信息 化 服务 能 力 ,对 
外 提供 数据 挖掘 和 分 析 的 新 业务 及 服务 。 
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图 17-1 运营 商 大 数据 应 用 与 分 布 
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但 是 ,由 于 大 量 数据 的 产生 、 存 储 和 分 析 , 使 得 运营 商 在 数据 对 外 应 用 和 开放 过 程 中 面 
临 着 数据 保密 、 用 户 隐私 、 商 业 合作 等 一 系列 问题 。 运 营 商 需要 利用 企业 平台 、 系 统 和 工具 
实现 数据 的 科学 建 模 ,确定 或 归 类 这 些 数据 的 价值 。 但 是 ,由 于 数据 通常 是 散乱 在 众多 系统 
中 ,信息 来 源 十 分 庞杂 ,因此 运营 商 需要 有 效 进行 数据 收集 与 分 析 , 保 障 数 据 的 完整 性 和 安 
全 性 。 在 对 外 合作 时 ,运营 商 需要 能 够 准确 地 将 外 部 业务 需求 转换 成 实际 的 数据 需求 ,建立 
完善 的 数据 对 外 开放 访问 机 制 。 在 此 过 程 中 ,如 何 有 效 地 保护 用 户 隐私 ,防止 企业 核心 数据 
泄露 成 为 运营 商 对 外 开展 大 数据 应 用 时 需要 考虑 的 重要 问题 。 
因此 ,电信 运营 商 的 大 数据 安全 需求 是 确保 核心 数据 与 资源 的 保密 性 、 完 整 性 和 可 用 
性 ,在 保障 用 户 利益 、 体 验 和 隐私 的 基础 上 充分 发 挥 数据 价值 。 


17.2.3 金融 行业 


金融 业 是 产生 海量 数据 的 行业 , 随 着 金融 业务 的 载体 与 社交 媒体 、 电 子 商 务 的 融合 越 来 
越 紧密 , 仅 对 原 有 15% 的 结构 化 数据 进行 分 析 已 经 不 能 满足 发 展 的 需求 。 企 业 需 要 借助 大 
数据 战略 打破 数据 边界 , 襄 括 85% 的 非 结 构 化 数据 ,构建 更 为 全 面 的 企业 数字 运营 全 景 视 
图 。 与 此 同时 ,大 数据 正在 改变 着 银行 的 运作 方式 ,形成 了 一 些 较 为 典型 的 业务 类 型 (例如 
高 频 金 融 交 易 、 小 额 信贷 、 精 准 营 销 等 ), 对 理解 和 洞察 市 场 和 客户 方面 正 产生 着 深远 的 
影响 。 

金融 信息 系统 具有 相互 牵连 、 使 用 对 象 多 样 化 、 安 全 风险 多 方位 、 信 息 可 靠 性 ,保密 性 要 
求 高 等 特征 。 它 对 网 络 的 安全 性 、 稳 定性 要 求 更 高 ,能 够 高 速 处 理 数据 ,提供 元 余 备份 和 容 
错 功 能 ,保证 系统 在 任何 情况 下 都 能 够 正常 运行 。 并 且 金 融 信 息 系统 需要 提供 非常 好 的 管 
理 能 力 和 灵活 性 ,以 应 对 复杂 的 应 用 。 虽 然 金融 信息 系统 一 直 在 数据 安全 方面 追加 投资 和 
技术 研发 ,但 是 由 于 金融 领域 业务 链条 的 拉 长 . 云 计算 模式 的 普及 、 自 身 系统 复 杂 度 的 提升 ， 
以 及 对 数据 的 不 当 利用 ,都 增加 了 金融 业 大 数据 的 安全 风险 。 

因此 ,金融 行业 的 大 数据 安全 需求 是 对 数据 访问 控制 .处 理 算法 、 网 络 安全 数据 管理 和 
应 用 等 方面 提出 安全 要 求 ,期 望 利 用 大 数据 安全 技术 加 强 金 融 机 构 的 内 部 控制 ,提高 金融 监 
管 和 服务 水 平 ,防范 和 化 解 金融 风险 。 


17.2.4 医疗 行业 


医疗 和 大 数据 结缘 始 于 医疗 数字 化 ,病历 .影像 .远程 医疗 等 都 会 产生 大 量 的 数据 ,在 医 
疗 服务 行业 上 ,大 数据 可 应 用 于 临床 诊断 .远程 监控 ,药品 研发 .防止 医疗 诈骗 ,分析 由 生活 
方式 和 行为 引发 的 疾病 等 方面 。 据 麦肯锡 研究 报告 显示 ,医疗 大 数据 的 分 析 会 为 美国 产生 
3000 亿美 元 的 价值 ,减少 8% 的 国家 医疗 保健 的 支出 。 医 疗 离 不 开 数 据 , 数 据 用 于 医疗 ,大 
数据 的 基础 为 医疗 服务 行业 提出 的 “生态 ”概念 的 实现 提供 了 有 力 的 保障 。 

随 着 医疗 信息 数据 (结构 化 与 非 结构 化 ) 的 几何 倍数 增长 ,数据 存储 压力 也 越 来 越 大 , 导 
致 医 疗 信息 中 心 的 关注 点 由 传统 “计算 ”领域 转移 到 "存储 ”领域 。 数 据 存储 是 否 安全 可 靠 已 
经 关乎 医院 业务 的 连续 性 。 因 为 系统 一 旦 出 现 故 障 ,首先 考验 的 就 是 数据 的 存储 、 灾 备 和 恢 
复 能 力 。 如 果 数 据 不 能 迅速 恢复 ,而 且 恢 复 不 能 到 断 点 , 则 对 医院 的 业务 、 患 者 满意 度 构 成 
直接 损害 。 同 时 ,医疗 数据 具有 极 强 的 隐私 性 ,大 多 数 医疗 数据 拥有 者 不 愿意 将 数据 直接 提 
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供给 其 他 单位 或 个 人 进行 研究 利用 ,而 数据 的 技术 和 手段 有 限 ,造成 宝贵 数据 资源 的 浪费 。 

因此 ,医疗 行业 对 大 数据 安全 的 需求 是 数据 隐私 性 高 于 安全 性 和 机 密 性 ,同时 要 安全 和 
可 靠 的 数据 存储 、 完 善 的 数据 备份 和 管理 ,以 帮助 医生 与 病人 进行 疾病 诊断 .药物 开发 ,管理 
决策 .完善 医院 服务 ,提高 病人 满意 度 , 降 低 病人 流失 率 。 


17.2.5 政府 组 织 


大 数据 分 析 在 安全 上 的 潜能 已 经 被 各 国政 府 组 织 发 现 , 它 的 作用 在 于 能 够 帮助 国家 构 
建 更 加 安全 的 网 络 环境 。 例 如 ,美国 进口 安全 申报 委员 会 不 久 前 宣布 ,通过 6 个 关键 性 的 调 
查 结果 证 明 ,大 数据 分 析 不 仅 具备 强大 的 数据 分 析 能 力 ,更 能 确保 数据 的 安全 性 。 美 国 国防 
部 已 经 在 积极 部 署 大 数据 行动 ,利用 海量 数据 挖掘 高 价值 情报 ,提高 快速 响应 能 力 ,实现 决 
策 自动 化 。 而 美国 中 央 情 报 局 通过 利用 大 数据 技术 ,提高 从 大 型 复杂 的 数字 数据 集中 提取 
知识 和 观点 的 能 力 , 加 强国 家 安全 。 图 17-2 描述 了 大 数据 在 各 领域 潜在 的 广泛 应 用 ,有 着 
巨大 的 商业 价值 。 
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图 17-2 大 数据 广泛 应 用 


因此 ,政府 组 织 对 大 数据 安全 的 需求 是 隐私 保护 的 安全 监管 网络 环 境 安 全 感知 、 大 数 
据 安全 标准 的 制定 .安全 管理 机 制 的 规范 等 内 容 。 


17.3 大 数据 安全 内 涵 


基于 以 上 对 不 同 领 域 大 数据 环境 的 安全 需求 分 析 , 我 们 认为 大 数据 安全 应 该 包括 两 个 
层面 的 含义 : 保障 大 数据 安全 和 大 数据 用 于 安全 ,如 图 17-3 所 示 。 前 者 是 指 保 障 大 数据 计 
算 过 程 、 数 据 形态 、 应 用 价值 的 处 理 技术 ,涉及 大 数据 自身 安全 问题 ; 后 者 则 是 利用 大 数据 
技术 提升 信息 系统 安全 效能 和 能 力 的 方法 ,涉及 如 何 解决 信息 系统 安全 问题 。 
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图 17-3 大 数据 安全 的 两 层 含义 


17.3.1 保障 大 数据 安全 


大 数据 无 论 是 在 数据 体 量 \、 结 构 类 型 、 处 理 速 度 、 价 值 密度 方面 ,还 是 在 数据 存储 、 查 询 
模式 、 分 析 应 用 上 都 与 关系 型 数据 有 着 显著 差异 。 例 如 ,大 数据 由 于 目标 大 ,在 网 络 上 更 容 
易 被 发 现 , 对 潜在 攻击 者 的 吸引 力 更 大 ; 海量 数据 汇集 加 大 了 敏感 数据 暴露 的 可 能 性 ,对 大 
数据 的 无 序 使 用 也 增加 了 要 害 信 息 泄露 危险 ; 随 着 企业 数据 访问 通道 越 来 越 多 ,对 大 数据 
访问 的 安全 控制 难度 增加 ; 由 于 大 数据 分 析 往 往 需 要 多 类 数据 相互 参考 ,如 何在 一 些 特殊 
行业 (如 金融 数据 、 医 疗 信 息 ) 满 足 数 据 安全 标准 和 保密 性 要 求 ; 数据 大 集中 后 ,对 于 现 有 的 
存储 和 安全 防范 措施 提出 新 的 挑战 等 。 

大 数据 意味 着 数据 及 其 承载 系统 的 分 布 式 和 重 棒 性 ,单个 数据 和 系统 的 价值 相对 降低 ， 
空间 和 时 间 的 大 跨度 ,价值 的 稀疏 ,外 部 人 员 更 不 容易 寻找 到 攻击 点 。 但 是 ,在 大 数据 环境 
下 完全 的 去 中 心 化 很 难 , 对 于 低 密 度 价 值 的 提炼 过 程 也 是 吸引 攻击 的 内 容 。 针 对 这 些 问 题 ， 
传统 安全 产品 所 使 用 的 监视 、 分 析 日 志文 件 , 发 现 数据 和 评估 漏洞 的 技术 并 不 能 有 效 运行 。 
而 且 在 很 多 技术 方案 中 ,数据 的 大 小 会 影响 到 安全 控制 或 配套 操作 能 否 正确 运行 。 随 着 越 
来 越 多 的 数据 被 开放 、 被 交叉 使 用 ,在 这 个 过 程 中 如 何 保护 用 户 隐私 是 最 需要 考虑 的 问题 。 

为 了 解决 大 数据 自身 的 安全 问题 ,需要 重新 设计 和 构建 大 数据 安全 架构 和 开放 数据 服 
务 ,从 网 络 安全 、 数 据 安全 、 灾 难 备份 、 安 全 风险 管理 、 安 全 运营 管理 ,安全 事件 管理 ,安全 治 
理 等 各 个 角度 考虑 ,部 署 整 体 的 安全 解决 方案 ,保障 大 数据 计算 过 程 数 据 形态 、 应 用 价值 的 
安全 。 因 此 ,需要 构建 统一 的 大 数据 安全 架构 和 开放 数据 服务 (如 图 17-4 所 示 ) ,确保 大 数 
据 自身 的 安全 。 





存储 : 数据 大 集中 ， 数 据 量 巨大 
-天 之 中 ， 因 特 网 产生 的 

全 部 内 容 可 以 刻 满 1.68 亿 张 DVD ; 

发 出 的 邮件 有 2940 亿 封 之 多 …… 


流程 : 业务 逻辑 复杂 ， 实 时 
要 求 


求 
。 复 杂 的 多 条 件 查询 需求 日 益 增 多 
。 现 有 系统 无 法 快速 响应 


架构 : 需要 扩展 、 升级 

现 有 架构 面 对 数 据 大 集中 
的 需求 很 难 满足 ， 性 能 很 难 适 
应 ， 维 护 和 扩容 费用 昂贵 






标准 : 数据 标准 和 质量 待 完善 
。 缺 乏 标准 化 、 全 方位 数据 管理 
。 缺 乏 数据 质量 全 面 管控 








统一 架构 ， 统 一 服务 








大 数据 安全 架构 和 开放 数据 服务 


图 17-4 大 数据 安全 架构 
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17.3.2 大 数据 用 于 安全 领域 


大 数据 在 面临 自身 安全 问题 的 同时 ,也 给 信息 安全 的 发 展 带 来 了 新 机 遇 。2013 年 1 A. 
RSA/EMC 信息 安全 事业 部 发 布 的 安全 简报 断言 ,大 数据 将 会 是 一 个 安全 行业 发 生 重大 转 
变 的 驱动 因素 ,并 将 推动 智能 驱动 的 信息 安全 模型 。 未 来 ,大 数据 分 析 将 有 可 能 给 信息 安全 
领域 包括 SIEM( 信 息 安全 事件 管理 ) 网 络 监控 .用户 身份 认证 和 授权 .身份 管 理 ,欺诈 检测 
及 治理 风险 及 合 规 系 统 在 内 的 大 多 数 产品 类 别 带 来 足以 改变 市 场 的 变化 。 

大 数据 为 安全 分 析 提 供 新 的 可 能 性 ,对 于 海量 数据 的 分 析 有 助 于 更 好 地 刻画 网 络 异常 
行为 ,从 而 找 出 数据 中 的 风险 点 ,制定 更 好 的 预防 攻击 ,制定 信息 泄露 的 策略 。 目 前 ,大 数据 
在 信息 安全 领域 的 应 用 包括 两 个 方面 : 宏观 上 的 网 络 安全 态势 感知 和 微观 上 的 安全 威胁 发 
现 。 前 者 是 指 运 用 大 数据 云 计 算 特有 的 海量 存储 、 并 行 计算 、 高 效 查 询 等 特点 ,解决 大 规模 
网 络 安全 事件 数据 的 有 效 获取 ,海量 安全 事件 数据 的 实时 关联 分 析 , 客 观 、 可 理解 的 网 名 全 
指标 体系 建立 等 问题 ,从 中 发 现 主机 和 网 络 异常 行为 ,起 到 全 局 安全 预警 的 作用 。 后 者 是 指 
从 大 数据 中 发 现 微观 事件 ,特别 是 高 级 持续 性 威胁 攻击 发 现 。 通 过 全 面 收集 重要 终端 和 服 
务 器 上 的 日 志 信息 ,以 及 采集 网 络 设备 原始 流量 ,利用 大 数据 技术 进行 分 析 和 挖掘 ,检测 并 
还 原 整个 APT 攻击 场景 ,能 够 起 到 动态 预防 的 安全 作用 。 图 17-5 给 出 了 利用 大 数据 检测 
APT 攻击 的 过 程 。 
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大 数据 正在 提供 一 个 更 宽广 的 新 视角 ,帮助 他 们 更 加 前 瞻 性 地 发 现 安全 威胁 ,利用 大 数 
据 技术 可 以 提升 企业 数据 防护 系统 的 安全 效能 、 安 全 能 力 和 安全 效果 。 大 数据 通过 自动 化 
分 析 处 理 与 深度 挖掘 ,将 之 前 很 多 时 候 亡羊补牢 式 的 事 中 .事后 处 理 转向 事前 自动 评估 预 
测 、 应 急 处 理 , 让 安全 防护 主动 起 来 。 


17.4 大 数据 安全 研究 方向 


大 数据 安全 的 技术 研究 可 以 从 两 个 方面 着 手 : 一 是 确保 大 数据 安全 的 关键 技术 ,涉及 
大 数据 业务 链条 上 的 数据 产生 、 存 储 、 处 理 、 价 值 提 取 、 商 业 应 用 等 环节 的 数据 安全 防御 和 保 
护 技术 ; 二 是 利用 涉及 安全 信息 的 大 数据 在 信息 安全 领域 进行 分 析 与 应 用 ,涉及 安全 大 数 
据 的 收集 整理. 过滤、 整合 ,存储 挖掘, 审计、 应 用 等 环节 的 关键 技术 。 


17.4.1 大 数据 安全 保障 技术 


大 数据 安全 保障 技术 可 以 从 物理 安全 .系统 安全 、 网 络 安全 ,存储 安全 、 访 问安 全 .审计 
安全 ,运营 安 全 等 角度 进行 考虑 ,围绕 大 数据 全 生命 周期 , 即 数据 产生 、 采 集 、 传 输 、 存 储 、 处 
理 , 分 析 、 发 布 .展示 和 应 用 、 产 生 新 数据 等 阶段 进行 安全 防护 。 其 目标 在 于 最 大 程度 的 保护 
具有 流动 性 和 开放 性 特征 的 大 数据 自身 安全 ,防止 数据 泄露 越权 访问 数据 算 改 、 数 据 丢 
失 、 密 钥 汇 露 , 侵 犯 用 户 隐 私 等 问题 的 出 现 。 因 此 ,大 数据 安全 保障 技术 需要 设计 和 构建 更 
多 的 技术 标准 、 安 全 规范 、 工 具 产 品 、 安 全 服务 等 形式 来 保护 大 数据 的 安全 。 目 前 ,国际 组 织 
CSA BDWG 工作 组 负责 确定 云 中 大 数据 安全 和 隐私 问题 的 可 扩展 技术 ,主要 研究 安全 数 
据 存储 、 大 数据 隐私 和 管理 ,数据 完整 性 问题 ,主流 大 数据 技术 和 框架 的 评估 、 大 数据 基础 设 
施 的 安全 性 、 分 析 结 果 的 安全 性 等 问题 。 

对 大 数据 挖掘 与 分 析 的 前 提 是 采集 足够 多 的 数据 ,其 后 的 集成 分析、 管理 都 构建 于 数 
据 采集 基础 之 上 。 企 业 每 时 每 刻 都 在 产生 大 量 的 数据 ,但 是 这 些 数据 在 采集 、 过 滤 、 整 合 \ 提 
炼 过 程 中 常常 涉及 采集 合 规 、 敏 感 信息 、 隐 私 数据 、 传 输 安全 、 接 口 安 全 等 问题 。 在 采集 阶 
段 ,网 络 层 可 以 针对 数据 应 用 的 网 络 架构 与 系统 入 口 进行 安全 防护 ,例如 防火 墙 和 入 侵 监 测 
等 手段 ; 设备 层 可 以 采用 设备 安全 及 物理 保护 .设备 处 置 与 重用 安全 ,存储 设备 安全 要 求 、 
服务 器 安全 要 求 . 终 端 安全 管理 、 接 入 设备 安全 要 求 等 防护 措施 ; 在 数据 传输 过 程 中 ,数据 
加 密 通 过 加 密 算法 为 数据 流 的 上 传 提供 有 效 保护 ,实现 信息 隐蔽 ; 使 用 数据 脱 敏 技术 对 脱 
敏 等 级 与 效果 进行 度量 。 为 了 平衡 数据 保护 和 个 性 化 服务 ,还 可 以 在 数据 采集 阶段 增加 透 
明度 ,降低 隐私 泄露 风险 。 

数据 大 集中 的 后 果 使 复杂 多 样 的 数据 存储 在 一 起 ,由 此 催生 出 一 些 新 的 安全 问题 。 目 
前 ,解决 大 数据 的 安全 存储 可 以 采用 以 下 几 种 方法 : 

(1) 数据 加 密 。 在 数据 安全 服务 的 设计 中 ,大 数据 可 以 按照 数据 安全 存储 的 需求 被 存 
储 在 数据 集 的 任何 存储 空间 ,通过 SSL(Secure Sockets Layer, 安 全 套 接 协议 层 ) 加 密 , 实 现 
数据 集 的 节点 和 应 用 程序 之 间 移 动 保护 大 数据 。 在 大 数据 传输 服务 过 程 中 ,加 密 为 数据 流 
的 上 传 与 下 载 提供 有 效 的 保护 。 应 用 隐私 保护 外 包 数 据 计算 ,屏蔽 网 络 攻击 。 

(2) 分 离 密 钥 和 加 密 数 据 。 使 用 密 钥 管理 技术 把 数据 使 用 与 数据 保管 相 分 离 , 把 密 钥 
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敏 等 级 与 效果 进行 度量 。 为 了 平衡 数据 保护 和 个 性 化 服务 ,还 可 以 在 数据 采集 阶段 增加 透 
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与 要 保护 的 数据 隔离 开 。 涉 及 从 密 钥 的 管理 体制 .管理 协议 和 密 钥 的 产生 、 分 配 、 存 储 、 更 
EA. ROWS 

(3) 使 用 过 滤器 。 通 过 过 滤器 的 监控 ,一 旦 发 现 数据 离开 了 用 户 的 网 络 ,就 立刻 阻止 数 
据 的 再 次 传输 ,可 采用 数据 标识 .签名 .水印 等 技术 来 实现 。 

(4) 数据 备份 。 对 于 大 数据 应 用 而 言 , 实 时 备份 恢复 非常 困难 。 因 此 ,需要 定期 通过 系 
统 容 灾 、 敏 感 信息 集中 管理 和 数据 管理 等 产品 ,实现 端 对 端的 数据 保护 ,保证 数据 损坏 情况 
下 有 备 无 患 和 安全 管控 。 

(5) 加 强 细 粒 度 授权 管理 。 可 以 根据 大 数据 的 密级 程度 和 用 户 需 求 的 不 同 ,将 数据 和 
用 户 设 定 不 同 的 权限 等 级 ,并 严格 控制 访问 权限 。 实 际 生 产 中 ,要 对 数据 流 主客 体 、 数 据 访 
问 权限 \ 特 权 用 户 的 登录 \ 访 问 行 数 \ 数 据 表 和 高 危 行为 .许可 规则 、 禁 止 规则 等 进行 管控 。 

在 大 数据 挖掘 阶段 ,需要 对 接 入 的 实体 信息 进行 身份 认证 和 访问 控制 ,通过 安全 的 方式 
与 数据 存储 系统 对 接 ,数据 挖掘 需要 保存 完整 的 操作 处 理 日 志 , 以 便 审计 。 在 保证 数据 的 完 
整 性 、 准 确 性 的 同时 ,不 能 泄露 企业 的 核心 数据 和 个 人 隐私 信息 。 因 此 ,数据 挖掘 操作 过 程 
必须 通过 统一 安全 策略 进行 管理 ,实现 鉴 权 、 审 计 等 功能 。 例 如 对 算法 的 安全 性 和 可 靠 性 提 
供 必要 的 验证 与 测试 方案 ,规范 算法 使 用 的 数据 范围 .挖掘 周期 ,挖掘 目的 及 挖掘 结果 的 应 
用 范围 等 。 而 在 数据 应 用 前 ,需要 有 效 的 技术 手段 保障 数据 自身 的 安全 性 ,防止 数据 盗用 和 
回 写 等 违规 操作 。 审 计 分 析 须 具备 关键 字 分 析 、 统 计 分 析 和 关联 分 析 等 能 力 ,对 敏感 数据 的 
访问 、 用 户 关键 操 作 行为 、 安 全 日 志 \ 输 出 数据 等 信息 进行 审计 。 可 采用 的 技术 有 行为 合 
审计 、 内 容 合 规 审计 、 输 出 加 密 要 求 .实时 审计 、 事 后 审 训 、 审 计 留 痕 等 。 


17.4.2 大 数据 安全 应 用 技术 


通过 了 解 大 数据 安全 内 涵 和 技术 特点 ,可 以 在 信息 安全 领域 利用 大 数据 分 析 技 术 得 到 
相关 的 安全 预警 和 防护 建议 。 例 如 ,在 大 数据 采集 的 基础 上 ,企业 可 以 从 原始 数据 中 进行 二 
次 提取 ,建立 基础 指标 、 应 用 层 指 标 等 多 种 类 型 指标 ,然后 基于 指标 之 间 的 关联 ,分 析 每 个 指 
标的 变化 状况 ,通过 大 数据 分 析 帮 助 企业 建立 信誉 评估 机 制 ,感知 信息 安全 态势 。 而 随 着 大 
数据 应 用 所 需 的 技术 和 工具 快速 发 展 ,其 在 信息 安全 领域 也 会 有 更 长 远 的 发 展 。 

借助 大 数据 处 理 技术 ,可 以 针对 APT 攻击 隐蔽 能 力 强 ,长 期 潜伏 、 攻 击 路 径 和 渠道 不 
确定 等 特征 ,设计 具备 实时 检测 能 力 与 事后 回溯 能 力 的 全 流量 审计 方案 ,提醒 隐藏 有 病毒 的 
应 用 程序 。 由 于 APT 攻击 利用 了 多 种 攻击 手段 ,能 够 躲 过 安全 监测 ,窃取 更 多 的 数据 , 扩 
大 目标 组 织 攻击 面 。 但 是 .APT 攻击 在 触发 之 前 通常 需要 收集 大 量 关于 用 户 业 务 流 程 和 目 
标 系 统 使 用 情况 的 精确 信息 ,那么 就 可 以 通过 整合 大 数据 处 理 资源 ,协调 大 数据 处 理 和 分 析 
机 制 ,共享 数据 库 之 间 的 关键 模型 数据 ,对 长 时 间 、 全 流量 数据 进行 深度 分 析 , 加 快 对 APT 
攻击 的 建 模 进程 ,提升 对 APT 攻击 的 检测 能 力 ,消除 和 控制 APT 的 危害 。 

安全 监测 与 大 数据 的 融合 技术 也 是 大 数据 安全 应 用 的 一 个 重要 方向 。 通 过 实时 监控 网 
络 或 主机 活动 ,监视 分 析 用 户 和 系统 的 行为 ,审计 系统 配置 和 漏洞 ,评估 敏感 系统 和 数据 的 
完整 性 ,识别 攻击 行为 ,对 异常 行为 进行 统计 和 跟踪 ,识别 违反 安全 法 规 的 行为 ,使 用 诱骗 服 
务 器 记录 黑客 行为 等 功能 ,使 管理 员 有 效 地 监视 ,控制 和 评估 网 络 或 主机 系统 。 由 于 实时 监 
控 数 据 是 海量 多样, 快速、 复杂 的 数据 ,因此 可 以 利用 大 数据 技术 有 效 提高 安全 监测 的 效果 
和 能 力 。 
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通信 技术 和 终端 工艺 的 不 断 发 展 ,使 得 网 络 正 朝 着 大 规模 、 多 业务 的 方向 发 展 , 随 之 而 
来 的 网 络 安全 问题 也 越 来 越 突出 。 传 统 的 网 络 安全 设备 大 都 独立 工作 ,信息 没有 关联 ,无 法 
对 其 所 保护 的 网 络 资源 总 体 状 况 进 行 准确 监控 。 基 于 大 数据 的 网 络 安全 态势 感知 及 预测 技 
术 能 够 实时 地 监测 网 络 安全 状态 ,获得 更 精确 的 安全 威胁 行为 描述 和 更 全 面 、 及 时 的 网 络 安 
全 状态 估计 ,并 对 潜在 的 .恶意 的 网 络 攻击 行为 变 得 无 法 控制 之 前 进行 预测 ,预先 采取 相应 
的 防御 措施 来 加 强 网 络 的 安全 。 

许多 领域 的 应 用 需要 不 间断 获取 外 部 信息 和 数据 ,及 时 分 析 大 流量 的 实时 事件 ,并 迅速 
洞察 事件 原委 ,及 时 地 响应 不 断 变化 的 世界 。 这 就 需要 能 够 对 持续 大 流量 的 实时 数据 进行 
分 析 并 快速 响应 。 大 数据 实时 处 理 融 合 了 云 计算 、 机 器 学 习 、 语 义 分 析 、 统 计 学 等 多 个 领域 
的 技术 优势 ,能 够 快速 地 从 海量 数据 中 发 现 宏观 波动 趋势 ,挖掘 出 黑客 攻击 .非法 操作 潜在 
威胁 等 各 类 安全 事件 ,及 时 发 出 警告 响应 。 同 样 , 也 可 以 利用 大 数据 实时 处 理 技术 预测 数据 
波动 趋势 和 未 来 走向 ,用 于 天 气 预报 、 股 票 和 金融 分 析 。 


17.5 本 章 小 结 


本 章 介 绍 了 大 数据 云 计 算 面 临 的 各 种 安全 威胁 ,阐述 了 不 同行 业 大 数据 安全 的 需求 , 指 
出 大 数据 安全 应 该 包括 保障 大 数据 安全 和 大 数据 用 于 安全 两 个 层面 的 含义 。 

大 数据 安全 保障 技术 可 以 从 物理 安全 、 系 统 安 全 、 网 络 安 全 、 存 储 安 全 、 访 问安 全 、 审 计 
安全 ,运营 安全 等 角度 进行 考虑 ,围绕 大 数据 全 生命 周期 , 即 数据 产生 、 采 集 、 传 输 、 存 储 、 处 
理 , 分 析 、 发 布 .展示 和 应 用 、 产 生 新 数据 等 阶段 进行 安全 防护 。 

大 数据 应 用 于 信息 安全 领域 是 指 利用 大 数据 分 析 技 术 得 到 相关 的 安全 预警 和 防护 
建议 。 
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随 着 各 领域 对 保护 大 数据 、 应 用 大 数据 的 关注 ,大 数据 安全 保障 问题 持续 升温 。 一方 
面 ,信息 技术 的 快速 发 展 为 黑客 们 提供 了 日 趋 多 样 的 攻击 方法 与 工具 ,使 得 数据 驱动 型 企业 
面临 的 安全 威胁 成 倍增 加 ; 另 一 方面 ,大 数据 处 理 流程 的 各 个 环节 存在 不 同 的 安全 风险 ,这 
既 涉 及 一 些 传统 安全 问题 ,又 涉及 一 些 新 的 安全 问题 。 针 对 上 述 情况 ,各 领域 专家 展开 了 广 
泛 而 深入 的 调研 \ 研 究 与 实践 ,推出 了 各 自 的 安全 产品 与 安全 方案 。 


18.1 大 数据 安全 的 关键 技术 


18.1.1 非 关系 数据 库 安 全 策略 


越 来 越 多 的 企业 采用 非 关 系 型 数据 库存 储 大 数据 ,保障 非 关 系 型 数据 库 的 安全 十 分 必 
要 。 关 系 型 数据 库 主 要 通过 事务 支持 来 实现 数据 存 取 的 原子 性 .一 致 性 .隔离 性 和 持久 性 ， 
保证 数据 的 完整 性 和 正确 性 ,同时 对 数据 库 表 、 行 .字段 等 提供 基于 用 户 级 别 的 权限 访问 控 
制 及 加 密 机 制 。NoSQL 数据 库 为 大 数据 处 理 提供 了 高 可 用 、 高 可 扩展 的 大 规模 数据 存储 方 
案 , 但 缺乏 足够 的 安全 保障 。 如 NoSQL 数据 库 缺 少 Schema, 因 此 不 能 对 数据 库 进行 较 好 
的 完整 性 验证 。 同 时 ,多 数 NoSQL 数据 库 为 了 提高 处 理 效 率 , 采 用 最 终 同 步 而 并 非 每 次 交 
易 同 步 ,影响 了 数据 的 正确 性 。 目 前 .多 数 的 NoSQL 数据 库 没 有 提供 内 建 的 安全 机 制 ,这 
在 一 定 程 度 上 限制 了 其 应 用 的 领域 及 范围 。 但 随 着 NoSQL 的 发 展 , 越 来 越 多 的 人 开始 意 
识 到 安全 的 重要 性 ,部 分 NoSQL 产品 逐渐 开始 提供 一 些 安全 方面 的 支持 。 下 面 以 Hadoop 
为 例 ,介绍 其 安全 机 制 。 

1. 基于 ACL 的 权限 控制 

Hadoop 支持 的 权限 控制 分 为 两 级 : 服务 级 授权 (service level authorization) 及 上 
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HDFS 文件 权限 控制 和 MapReduce 队列 权限 验证 。 服 务 级 授权 为 系统 级 ,用 于 控制 Hadoop 
服务 的 访问 ,是 最 基础 的 访问 控制 ,优先 于 HDFS 文件 权限 和 MapReduce 队列 权限 验证 。 

Hadoop 通过 访问 控制 列表 来 管理 服务 级 的 访问 权限 ,类 似 于 UNIX 系统 中 的 用 户 权 
限 管理 。Hadoop 通过 用 户 名 和 组 来 管理 权限 ,每 个 服务 可 以 配置 为 被 所 有 用 户 访问 ,也 可 
以 被 限制 某 些 用 户 访问 。Hadoop 有 9 个 可 配置 的 属性 ,如 表 18-1 所 示 。 


表 18-1 Hadoop ACL 属性 








ACL 属性 说 明 

Security. client. protocol. acl ACL for ClientProtocol, 用 于 HDFS 客户 端 对 HDFS 访问 的 
权限 控制 

Security. client, datanode. protocol. acl ACL for ClientDatanodeProtocol, Client 到 DataNote 的 访问 权 
限 控制 ,用 于 block 恢复 

Security. datanode. protocol. acl ACL for DatanodeProtocol, 用 于 DataNode 与 NameNode 之 间 
通信 的 访问 控制 

Security. inter. datanode. protocol. acl ACL for InterDatanodeProtocol, 用 于 DataNode 之 间 更 
新 timestamp 

Security. namenode. protocol. acl ACL for NamenodeProtocol， 用 于 SecondNameNode 与 
NameNode 通信 的 访问 控制 

Security. inter. tracker. protocol. acl ACL for InterTrackerProtocol, } F Tasktracker 与 Jobtracker 


之 间 通 信 的 访问 控制 
Security. job. submission. protocol. acl ACL for JobSubmissionProtocol, 用 于 Job 客户 端 提 交 作 业 与 
查询 作业 的 访问 控制 


Security. task. unbilical. protocol. acl ACL for TaskUnbilicalProtocol, H F Task 与 其 Tasktracker 
的 访问 控制 
Security. refresh. policy. protocol. acl ACL for RefreshAuthorizationPolicyProtocol, 用 F dfsadmin 


人 和 mredmin 更 新 其 安全 配置 的 访问 控制 


通过 ACL 的 权限 控制 ,Hadoop 能 保证 HBase 数据 库 底 层 HDFS 文件 系统 的 服务 级 
安全 访问 ,通过 用 户 和 组 的 限制 .防止 非法 的 用 户 对 数据 进行 操作 。 文 件 的 权限 主要 由 
NameNode 管理 。 

2. 基于 令 牌 的 认证 机 制 

HDFS 的 服务 间 交 互 基本 都 是 通过 远程 过 程 调 用 协议 (Remote Procedure Call 
Protocol, RPC) 交 互 , 但 是 HDFS 客户 端 获 取 数 据 时 却 不 完全 依靠 RPC 机 制 。 当 HDFS 客 
户 端 访 问 数据 时 ,主要 包括 两 个 过 程 : 

(1) 客户 端 访问 NameNode, 获 取 数 据 的 数据 块 信息 ,此 过 程 通过 RPC 交互 。 

(2) 客户 端 获 取 到 数据 位 置 后 ,直接 访问 DataNode, 根 据 数据 块 位 置信 息 直接 通过 
Socket 读 取 数据 。 

Hadoop 的 RPC 消息 机 制 在 SASL(Simple Aauthentication and Security Layer) 的 基 
础 上 实现 了 两 种 认证 机 制 : 基于 GSSAPI 的 Kerberos 认证 机 制 和 基于 DIGEST-MD5 的 令 
牌 认证 机 制 。 其 中 , 令 牌 认证 包括 HDFS 中 的 授权 令 牌 (Delegation Token) 、 块 访问 令 牌 
(Block Access Token) ,以 及 MapReduce 框架 中 的 任务 令 牌 (Job Token). 

令 牌 机 制 的 本 质 就 是 客户 端 和 服务 端 节点 共享 密 钥 ,服务 端 与 客户 端 可 以 相互 认证 . 服 
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务 端 将 响应 客户 端的 访问 。 令 牌 由 NameNode 管理 ,DataNode 不 参与 令 牌 的 管理 。 

NameNode 端 保存 了 一 个 随机 产生 的 masterKey, 用 来 产生 和 识别 令 牌 ,所 有 的 令 牌 都 
保存 在 内 存 中 ,并 且 每 个 令 牌 都 有 一 个 过 期 时 间 , 过 期 的 令 牌 将 被 删除 。 初 始 状 态 时 ,客户 
端 必须 与 NameNode 建立 一 个 经 过 Kerberos 认证 的 连接 ,从 而 获得 一 个 授权 令 牌 ,而 后 就 
可 以 通过 令 牌 与 NameNode 进行 交互 。 已 经 获得 令 牌 的 客户 端 访问 NameNode 时 将 
TokenID 发 送 到 NameNode,NameNode 通过 TokenID 可 以 在 内 存 中 找到 对 应 的 令 牌 ,并 
且 根 据 masterKey 与 TokenID 可 以 重新 计算 出 共享 密 钥 TokenAuthenticator 和 
Delegation Token。 在 授权 令 牌 能 被 认证 的 基础 上 , 令 牌 还 需要 周期 性 地 从 NameNode 更 
新 ,以 保证 私密 性 NameNode 也 会 周期 性 地 更 新 masterKey 以 产生 新 的 授权 令 牌 。 

对 于 块 访问 令 牌 来 说 ,如 何在 NameNode 产生 并 且 能 被 DataNode 识别 是 一 个 问题 ， 
HDFS 中 这 个 问题 通过 NameNode 与 所 有 的 DataNode 之 间 共 享 一 套 新 的 密 钥 来 解决 。 

当 HDFS 集群 启动 时 ,经 过 Kerberos 认证 的 DataNode 向 NameNode 注册 ,并 且 从 
NameNode 中 获取 密 钥 Key。 当 客户 端 访问 NameNode 时 ,返回 DataNode 中 数据 的 block 
ID 和 块 访问 令 牌 ,然后 客户 端 将 令 牌 发 送 到 DataNode, DataNode 根据 TokenID 中 的 
keyID 确定 需要 用 哪个 密 钥 Key, 并 通过 Key 和 TokenID 重新 计算 TokenAuthenticator， 
并 且 和 块 访问 令 牌 中 的 TokenAuthenticator 进行 比较 ,就 可 以 确定 是 否 能 够 通过 认证 , 客 
户 端 会 将 所 有 的 DataNode 令 牌 都 保存 在 缓存 中 重复 使 用 ,直到 过 期 才 会 重新 从 
NameNode 获取 。 由 于 块 访问 令 牌 是 轻 量 级 的 和 临时 的 ,因此 DataNode 中 的 令 牌 不 需要 
周期 性 地 更 新 ,只 需要 保存 在 缓存 中 ,过 期 才 进 行 更 新 。 

3. 数据 完整 性 与 一 致 性 

HDFS 的 数据 完整 性 分 为 两 个 部 分 : 数据 访问 的 完整 性 和 数据 传输 的 完整 性 。 

(1) 数据 访问 的 完整 性 。 

HDFS 主要 实现 了 CRC32 校 验 。HDFS 客户 端 在 访问 DataNode 数据 块 时 是 通过 
Socket 的 方式 获取 数据 流 ,Hadoop 在 FSInputStream 和 FSOutputStream 的 基础 上 实现 两 
个 支持 校 验 和 的 类 和 文件 系统 .FSInputCheck 和 FSOutputSummer 使 数据 流 支持 校 验 和 。 
当 客 户 端 写 入 一 个 新 的 HDFS 文件 时 会 计算 这 个 文件 中 包含 的 所 有 数据 块 的 校 验 和 ,并 将 
校 验 和 作为 一 个 单独 的 . crc 文件 格式 的 隐藏 文件 ,与 数据 文件 保存 在 同一 命名 空间 。 

(2) 数据 存储 的 完整 性 。 

HDFS 数据 块 的 存储 支持 完整 性 验证 ,主要 是 通过 核心 类 DataBlockScanner 类 实现 ， 
它 通 过 在 DataNode 的 后 台 执 行 一 个 独立 的 扫描 线程 的 方式 ,周期 性 地 对 DataNode 所 管理 
的 数据 块 进行 CRC 校 验 和 检查 。 当 它 扫描 发 现 数 据 块 的 校 验 和 原先 的 不 一 致 ,将 对 数据 块 
进行 其 他 辅助 操作 ,例如 删除 失效 的 数据 块 等 。 





18.1.2 防范 APT 攻击 


一 方面 ,APT 攻击 是 大 数据 时 代 面 临 的 最 复杂 的 信息 安全 问题 之 一 ; 另 一 方面 ,大 数 
据 分 析 技 术 又 为 对 抗 APT 攻击 提供 了 新 的 解决 手段 。 本 节 从 APT 攻击 的 定义 讲 起 ,全 面 
分 析 APT 攻击 的 特征 、 流 程 ,在 分 析 的 基础 上 提出 APT 攻击 检测 的 技术 手段 ,并 提出 防范 
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APT 攻击 的 策略 。 

1. APT 攻击 的 概念 

美国 国家 标准 技术 研究 所 (NIST) 对 APT 的 定义 为 : 攻击 者 掌握 先进 的 专业 知识 和 有 
效 的 资源 ,通过 多 种 攻击 途径 (如 网 络 ,物理 设施 和 欺骗 等 ) ,在 特定 组 织 的 信息 技术 基础 设 
施 建 立 并 转移 立足 点 ,以 窃取 机 密 信 息 , 破 坏 或 阻碍 任务 、 程 序 或 组 织 的 关键 系统 ,或 者 驻 留 
在 组 织 的 内 部 网 络 ,进行 后 续 攻 击 。 

APT 攻击 的 原理 相对 于 其 他 攻击 形式 更 为 高 级 和 先进 ,其 高 级 性 主要 体现 在 APT 在 
发 动 攻击 之 前 需要 对 攻击 对 象 的 业务 流程 和 目标 系统 进行 精确 的 收集 。 在 收集 的 过 程 中 ， 
此 攻击 会 主动 挖掘 被 攻击 对 象 受 信 系 统 和 应 用 程序 的 漏洞 ,在 这 些 漏洞 的 基础 上 形成 攻击 
者 所 需 的 命令 与 控制 (C&C) 网 络 。 此 种 行为 没有 采取 任何 可 能 触发 警报 或 者 引起 怀疑 的 
行动 ,因此 更 接近 于 融入 被 攻击 者 的 系统 。 

大 数据 应 用 环境 下 ,APT 攻击 的 安全 威胁 更 加 凸显 。 首 先 ,大 数据 应 用 对 数据 进行 了 
逻辑 或 物理 上 的 集中 ,相对 于 从 分 散 的 系统 中 收集 有 用 的 信息 ,集中 的 数据 系统 为 APT Be 
击 收集 信息 提供 了 “便利 ”; 其 次 ,数据 挖掘 过 程 中 可 能 会 有 多 方 合作 的 业务 模式 ,外 部 系统 
对 数据 的 访问 增加 了 防止 机 密 、 隐 私 出 现 泄露 的 途径 。 因 此 ,大 数据 环境 下 对 APT 攻击 的 
检测 和 防范 是 必须 要 考虑 的 问题 。 本 节 在 分 析 APT 攻击 特征 与 流程 的 基础 上 研究 APT 
攻击 检测 方法 与 防范 策略 。 

2. APT 攻击 特征 与 流程 

(1) APT 攻击 特征 。 

O 极 强 的 隐蔽 性 。APT 攻击 和 被 攻击 对 象 的 可 信 程序 漏洞 与 业务 系统 漏洞 进行 了 融 
合 , 在 组 织 内 部 ,这 样 的 融合 很 难 被 发 现 。 

@ 潜伏 期 长 ,持续 性 强 。APT 攻击 是 一 种 很 有 耐心 的 攻击 形式 ,攻击 和 威胁 可 能 在 用 
户 环境 中 存在 一 年 以 上 ,它们 不 断 收集 用 户 信 息 , 直 到 收集 到 重要 情报 。 它 们 往往 不 是 为 了 
在 短 时 间 内 获 利 ,而 是 把 “被 控 主机 ”当成 跳板 ,持续 搜索 ,直到 充分 掌握 目标 对 象 的 使 用 行 
为 。 所 以 这 种 攻击 模式 本 质 上 是 一 种 “恶意 商业 间谍 威胁 ”, 因 此 具有 很 长 的 潜伏 期 和 持 

@ 目标 性 强 。 不 同 于 以 往 的 常规 病毒 .APT 制作 者 掌握 高 级 漏洞 发 据 和 超 强 的 网 络 
攻击 技术 。 发 起 APT 攻击 所 需 的 技术 壁垒 和 资源 壁垒 要 远 高 于 普通 攻击 行为 。 其 针对 的 
攻击 目标 也 不 是 普通 个 人 用 户 . 而 是 拥有 高 价值 敏感 数据 的 高 级 用 户 . 特 别 是 可 能 影响 到 国 
家 和 地 区 政治 、 外 交 ., 金 融 稳定 的 高 级 别 敏感 数据 持 有 者 。 

O 技术 高 级 。 攻 击 者 掌握 先进 的 攻击 技术 ,使 用 多 种 攻击 途径 ,包括 购买 或 自己 开发 
的 Oday 漏洞 ,而 一 般 攻击 者 却 不 能 使 用 这 些 资源 。 而 且 攻 击 过 程 复杂 ,攻击 持续 过 程 中 攻 
击 者 能 够 动态 调整 攻击 方式 ,从 整体 上 掌控 攻击 进程 。 

© 威胁 性 大 。APT 攻击 通常 拥有 雄厚 的 资金 支持 ,由 经 验 丰富 的 黑客 团队 发 起 ,一 般 
以 破坏 国家 或 大 型 企业 的 关键 基础 设施 为 目标 ,窃取 内 部 核心 机 密 信息 ,危害 国家 安全 和 社 
会 稳定 。 

APT 攻击 与 传统 攻击 的 对 比如 表 18-2 所 示 。 








第 18 章 保障 大 数据 安全 oi 


表 18-2 APT 攻击 与 传统 攻击 方式 对 比 


























描述 属性 传统 攻击 APT 攻击 
Who | 攻击 者 大 范围 寻找 目标 的 黑客 资金 充足 有 组 织 有 背景 的 黑客 团队 
目标 对 象 在 线 零售 业 及 其 用 户 国家 重要 基础 设施 、 重 点 组 织 和 人 物 
What | 信用 卡 数据 ` 银 行 账号 .个 人 | 价值 很 高 的 电子 资产 .如 知识 产权 .国家 
目标 数据 
信息 安全 
| mec 
调查 公司 员工 信息 、 
手段 传统 技术 手段 .重点 边境 网 络 ee aaa 
How | 工具 常用 扫描 工具 .木马 针对 目标 漏洞 定制 木马 
Oday 工具 使 用 | 扫描 工具 .木马 普遍 
wa A 转 到 其 他 脆弱 机 器 构建 其 他 方法 或 工具 














(2) APT 攻击 的 流程 。 

D 信息 侦查 。 在 入 侵 之 前 ,攻击 者 首先 会 使 用 技术 和 社会 工程 学 手段 对 特定 目标 进行 
侦查 。 侦 查 内 容 主要 包括 两 个 方面 : 一 是 对 目标 网 络 用 户 的 信息 收集 ,如 高 层 领导 、 系 统管 
理 员 或 者 普通 职员 等 员工 资料 、 系 统管 理 制 度 、 系 统 业 务 流程 和 使 用 情况 等 关键 信息 ; 二 是 
对 目标 网 络 脆弱 点 的 信息 收集 ,如 软件 版 本 、 开 放 端 口 等 。 随 后 ,攻击 者 针对 目标 系统 的 脆 
弱点 ,研究 Oday 漏洞 ,定制 木马 程序 ,制订 攻击 计划 ,用 于 在 下 一 阶段 实施 精确 攻击 。 

© 持续 渗透 。 利 用 目标 人 员 的 疏忽 ,不 执行 安全 规范 ,以 及 利用 系统 应 用 程序 .网 络 服 
务 或 主机 的 漏洞 ,攻击 者 使 用 定制 木马 等 手段 ,不 断 渗透 以 潜伏 在 目标 系统 ,进一步 在 避免 
用 户 觉察 的 条 件 下 取得 网 络 核心 设备 的 控制 权 。 例 如 ,通过 SOL 注入 等 攻击 手段 突破 面向 
外 网 的 Web 服务 器 ,或 者 通过 钓鱼 攻击 ,发送 欺骗 邮件 获取 内 网 用 户 通信 录 , 并 进一步 入 侵 
高 管 主机 ,采用 发 送 带 漏洞 的 Office 文件 诱骗 用 户 将 正常 网 址 请 求 重 定向 至 恶意 站 点 。 

@ 长 期 潜伏 。 为 了 获取 有 价值 信息 ,攻击 者 一 般 会 在 目标 网 络 长 期 潜伏 ,有 长 达 数 年 
之 久 。 潜 伏 期 间 , 攻 击 者 还 会 在 已 控制 的 主机 上 安装 各 种 木马 .后 门 , 不 断 提高 恶意 软件 的 
复杂 度 , 以 增强 攻击 能 力 并 避 开 安全 检测 。 

© 窃取 信息 。 目 前 绝 大 部 分 APT 攻击 的 目的 都 是 窃取 目标 组 织 的 机 密 信息 。 攻 击 者 
一 般 采 用 SSL VPN 连接 的 方式 控制 内 网 主机 ,对 于 窃取 到 的 机 密 信息 ,攻击 者 通常 将 其 加 
密 存 放 在 特定 主机 上 ,再 选择 合适 的 时 间 将 其 通过 隐秘 信道 传输 到 攻击 者 控制 的 服务 器 。 
由 于 数据 以 密 文 方式 存在 ,APT 程序 在 获取 重要 数据 后 向 外 发 送 时 利用 了 合法 数据 的 传输 
通道 和 加 密 、 压 缩 方式 ,难以 辨别 出 其 与 正常 流量 的 区 别 ,如 图 18-1 所 示 。 

3. APT 攻击 检测 

从 APT 攻击 的 过 程 可 以 看 出 ,整个 攻击 循环 包括 了 多 个 步骤 ,这 就 为 检测 和 防护 提供 
了 多 个 契机 。 当 前 APT 检测 方案 主要 有 如 下 几 种 : 

a) 沙 箱 方案 。 

针对 APT 攻击 ,攻击 者 往往 使 用 了 Oday 的 方法 ,导致 特征 匹配 不 能 成 功 ,因此 需要 采 
用 非特 征 匹配 的 方式 来 识别 ,智能 沙 箱 技术 就 可 以 用 来 识别 Oday 攻击 与 异常 行为 。 智 能 沙 
箱 技术 最 大 的 难点 在 于 客户 端的 多 样 性 ,智能 沙 箱 技 术 对 操作 系统 类 型 .浏览 器 的 版 本 、 浏 














第 18 章 保障 大 数据 安全 oi 


表 18-2 APT 攻击 与 传统 攻击 方式 对 比 


























描述 属性 传统 攻击 APT 攻击 
Who | 攻击 者 大 范围 寻找 目标 的 黑客 资金 充足 有 组 织 有 背景 的 黑客 团队 
目标 对 象 在 线 零售 业 及 其 用 户 国家 重要 基础 设施 、 重 点 组 织 和 人 物 
What | 信用 卡 数据 ` 银 行 账号 .个 人 | 价值 很 高 的 电子 资产 .如 知识 产权 .国家 
目标 数据 
信息 安全 
| mec 
调查 公司 员工 信息 、 
手段 传统 技术 手段 .重点 边境 网 络 ee aaa 
How | 工具 常用 扫描 工具 .木马 针对 目标 漏洞 定制 木马 
Oday 工具 使 用 | 扫描 工具 .木马 普遍 
wa A 转 到 其 他 脆弱 机 器 构建 其 他 方法 或 工具 














(2) APT 攻击 的 流程 。 

D 信息 侦查 。 在 入 侵 之 前 ,攻击 者 首先 会 使 用 技术 和 社会 工程 学 手段 对 特定 目标 进行 
侦查 。 侦 查 内 容 主要 包括 两 个 方面 : 一 是 对 目标 网 络 用 户 的 信息 收集 ,如 高 层 领导 、 系 统管 
理 员 或 者 普通 职员 等 员工 资料 、 系 统管 理 制 度 、 系 统 业 务 流程 和 使 用 情况 等 关键 信息 ; 二 是 
对 目标 网 络 脆弱 点 的 信息 收集 ,如 软件 版 本 、 开 放 端 口 等 。 随 后 ,攻击 者 针对 目标 系统 的 脆 
弱点 ,研究 Oday 漏洞 ,定制 木马 程序 ,制订 攻击 计划 ,用 于 在 下 一 阶段 实施 精确 攻击 。 

© 持续 渗透 。 利 用 目标 人 员 的 疏忽 ,不 执行 安全 规范 ,以 及 利用 系统 应 用 程序 .网 络 服 
务 或 主机 的 漏洞 ,攻击 者 使 用 定制 木马 等 手段 ,不 断 渗透 以 潜伏 在 目标 系统 ,进一步 在 避免 
用 户 觉察 的 条 件 下 取得 网 络 核心 设备 的 控制 权 。 例 如 ,通过 SOL 注入 等 攻击 手段 突破 面向 
外 网 的 Web 服务 器 ,或 者 通过 钓鱼 攻击 ,发送 欺骗 邮件 获取 内 网 用 户 通信 录 , 并 进一步 入 侵 
高 管 主机 ,采用 发 送 带 漏洞 的 Office 文件 诱骗 用 户 将 正常 网 址 请 求 重 定向 至 恶意 站 点 。 

@ 长 期 潜伏 。 为 了 获取 有 价值 信息 ,攻击 者 一 般 会 在 目标 网 络 长 期 潜伏 ,有 长 达 数 年 
之 久 。 潜 伏 期 间 , 攻 击 者 还 会 在 已 控制 的 主机 上 安装 各 种 木马 .后 门 , 不 断 提高 恶意 软件 的 
复杂 度 , 以 增强 攻击 能 力 并 避 开 安全 检测 。 

© 窃取 信息 。 目 前 绝 大 部 分 APT 攻击 的 目的 都 是 窃取 目标 组 织 的 机 密 信息 。 攻 击 者 
一 般 采 用 SSL VPN 连接 的 方式 控制 内 网 主机 ,对 于 窃取 到 的 机 密 信息 ,攻击 者 通常 将 其 加 
密 存 放 在 特定 主机 上 ,再 选择 合适 的 时 间 将 其 通过 隐秘 信道 传输 到 攻击 者 控制 的 服务 器 。 
由 于 数据 以 密 文 方式 存在 ,APT 程序 在 获取 重要 数据 后 向 外 发 送 时 利用 了 合法 数据 的 传输 
通道 和 加 密 、 压 缩 方式 ,难以 辨别 出 其 与 正常 流量 的 区 别 ,如 图 18-1 所 示 。 

3. APT 攻击 检测 

从 APT 攻击 的 过 程 可 以 看 出 ,整个 攻击 循环 包括 了 多 个 步骤 ,这 就 为 检测 和 防护 提供 
了 多 个 契机 。 当 前 APT 检测 方案 主要 有 如 下 几 种 : 

a) 沙 箱 方案 。 

针对 APT 攻击 ,攻击 者 往往 使 用 了 Oday 的 方法 ,导致 特征 匹配 不 能 成 功 ,因此 需要 采 
用 非特 征 匹配 的 方式 来 识别 ,智能 沙 箱 技术 就 可 以 用 来 识别 Oday 攻击 与 异常 行为 。 智 能 沙 
箱 技术 最 大 的 难点 在 于 客户 端的 多 样 性 ,智能 沙 箱 技 术 对 操作 系统 类 型 .浏览 器 的 版 本 、 浏 














大 数据 云 服务 技术 架构 与 实践 









































APT 攻 击 的 典型 过 程 
一 ] [n 

软件 L wm cec | | 内 网 持续 LJ om 
“haha BS h 渗透 aag] 
tT Tt 个 个 个 tT 
Ba | [常见 软件 ] [多 种 反 检 | | 接受 攻击 | [长 其 在 内 同 中 导 | | ae 
sta || 的 漏洞 | 测 、 反 沙 | | 者 控制 指 ||| 技 有 价值 的 目标 | 产权 或 者 
KIR 箱 技术 ||? 商业 机 密 
攻击 



































图 18-1 APT 攻击 过 程 





览 器 安装 的 插件 版 本 都 有 一 定 关系 ,在 某 种 环境 当中 检测 不 到 恶意 代码 ,或 许 另 外 一 个 就 能 
检测 到 。 

(2) 异常 检测 。 

异常 检测 的 核心 思想 是 通过 流量 建 模 识别 异常 。 异 常 检测 的 核心 技术 是 元 数据 提取 技 
术 、 基 于 连接 特征 的 恶意 代码 检测 规则 ,以 及 基于 行为 模式 的 异常 检测 算法 。 其 中 ,元 数据 
提取 技术 是 指 利用 少量 的 元 数据 信息 检测 整体 网 络 流量 的 异常 。 基 于 连接 特征 的 恶意 代码 
检测 规则 是 检测 已 知 僵尸 网 络 .木马 通信 的 行为 。 而 基于 行为 模式 的 异常 检测 算法 包括 检 
测 隧道 通信 、 可 疑 加 密 文件 传输 等 。 

(3) 全 流量 审计 。 

全 流量 审计 的 核心 思想 是 通过 对 全 流量 进行 应 用 识别 和 还 原 检测 异常 行为 。 核 心 技术 
包括 大 数据 存储 及 处 理应 用 识别 ,文件 还 原 等 。 如 果 做 全 流量 分 析 , 面 临 的 问题 是 数据 处 
理 量 非常 大 。 全 流量 审计 与 现 有 的 检测 产品 和 平台 相辅相成 , 互 为 补充 ,构成 完整 的 防护 体 
系 。 在 整体 防护 体系 中 ,传统 检测 设备 的 作用 类 似 于 “触发 器 ”, 检 测 到 APT 行为 的 蛛 丝 马 
迹 ,再 利用 全 流量 信息 进行 回溯 和 深度 分 析 , 可 用 一 个 简单 的 公式 说 明 : 全 流量 审计 十 传统 
检测 技术 三 基于 记忆 的 检测 系统 。 

(4) 基于 深层 协议 解析 的 异常 识别 。 

基于 深层 协议 解析 的 异常 识别 ,可 以 查看 并 进一步 发 现 是 哪个 协议 ,如 一 个 数据 查询 ， 
有 什么 地 方 出 现 了 异常 ,直到 发 现 异常 点 为 止 。 

(5) 攻击 溯源 (Root Cause Explorer) 。 

通过 已 经 提取 出 来 的 网 络 对 象 ,可 以 重建 一 个 时 间 区 间 内 可 疑 的 Web, Session, 
E-mail 等 对 话 信息 。 通 过 将 这 些 事件 自动 排列 ,可 以 帮助 分 析 人 员 快 速 发 现 攻 击 源 。 

在 APT 攻击 检测 中 存在 的 问题 包括 攻击 过 程 包含 路 径 和 时 序 ; 攻击 过 程 的 大 部 分 貌 
似 正常 操作 ; 不 是 所 有 的 异常 操作 都 能 立即 被 检测 ; 不 能 保证 被 检测 到 的 异常 在 APT 过 
程 的 开始 或 早期 。 基 于 记忆 的 检测 可 以 有 效 缓解 上 述 问 题 。 现 在 对 抗 APT 的 思路 是 以 时 
间 对 抗 时 间 。 既 然 APT 是 在 很 长 时 间 发 生 的 ,对 抗 也 要 在 一 个 时 间 窗 内 进行 ,对 长 时 间 、 
全 流量 数据 进行 深度 分 析 。 将 流量 存储 与 现 有 检测 技术 相 结合 ,构成 了 新 一 代 基 于 记忆 的 
智能 检测 系统 。 在 此 基础 上 ,还 要 应 用 大 数据 分 析 作 为 关键 技术 。 

4. APT 攻击 防范 策略 


目前 的 防御 技术 、 防 御 体系 很 难 有 效应 对 APT 攻击 ,导致 很 多 攻击 直到 很 长 时 间 后 才 
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图 18-1 APT 攻击 过 程 
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E-mail 等 对 话 信息 。 通 过 将 这 些 事件 自动 排列 ,可 以 帮助 分 析 人 员 快 速 发 现 攻 击 源 。 

在 APT 攻击 检测 中 存在 的 问题 包括 攻击 过 程 包含 路 径 和 时 序 ; 攻击 过 程 的 大 部 分 貌 
似 正常 操作 ; 不 是 所 有 的 异常 操作 都 能 立即 被 检测 ; 不 能 保证 被 检测 到 的 异常 在 APT 过 
程 的 开始 或 早期 。 基 于 记忆 的 检测 可 以 有 效 缓解 上 述 问 题 。 现 在 对 抗 APT 的 思路 是 以 时 
间 对 抗 时 间 。 既 然 APT 是 在 很 长 时 间 发 生 的 ,对 抗 也 要 在 一 个 时 间 窗 内 进行 ,对 长 时 间 、 
全 流量 数据 进行 深度 分 析 。 将 流量 存储 与 现 有 检测 技术 相 结合 ,构成 了 新 一 代 基 于 记忆 的 
智能 检测 系统 。 在 此 基础 上 ,还 要 应 用 大 数据 分 析 作 为 关键 技术 。 

4. APT 攻击 防范 策略 


目前 的 防御 技术 、 防 御 体系 很 难 有 效应 对 APT 攻击 ,导致 很 多 攻击 直到 很 长 时 间 后 才 


第 18 章 保障 大 数据 安全 Gà 


被 发 现 , 甚 至 可 能 还 有 很 多 APT 攻击 未 被 发 现 。 通 过 对 前 面 APT 攻击 背景 及 攻击 特点 、 
攻击 流程 的 分 析 ,我 们 认为 需要 一 种 新 的 安全 思维 , 即 放弃 保护 所 占 数 据 的 观念 , 转 而 重点 
保护 关键 数据 资产 ,同时 在 传统 的 纵深 防御 的 网 络 安全 防护 基础 上 ,在 各 个 可 能 的 环节 上 部 
署 检测 和 防护 手段 ,建立 一 种 新 的 安全 防御 体系 。 

(1) 防范 社会 工程 。 

木马 侵入 、 社 会 工程 是 APT 攻击 的 第 一 个 步骤 ,防范 社会 工程 需要 一 套 综合 性 措施 ， 
既 要 根据 实际 情况 完善 信息 安全 管理 策略 ,如 禁止 员工 在 个 人 微 博 上 公布 与 工作 相关 的 信 
息 , 禁 止 在 社交 网 站 上 公布 私人 身份 和 联络 信息 等 ; 又 要 采用 新 型 的 检测 技术 ,提高 识别 恶 
意 程 序 的 准确 性 。 社 会 工程 是 利用 人 性 的 弱点 针对 人 员 进 行 的 渗透 过 程 ,因此 提高 人 员 的 
信息 安全 意识 是 防止 攻击 的 最 基本 方法 。 传 统 的 办 法 是 通过 宣讲 培训 的 方式 来 提高 安全 意 
识 , 但 是 往往 效果 不 好 ,不 容易 对 听众 产生 触动 。 而 比较 好 的 方法 是 社会 工程 测试 ,这 种 方 
法 是 已 经 被 业界 普遍 接受 的 方式 ,有 些 大 型 企业 会 授权 专业 公司 定期 在 内 部 进行 测试 。 

绝 大 部 分 社会 工程 攻击 是 通过 电子 邮件 或 即时 消息 进行 的 。 上 网 行为 管理 设备 应 该 做 
到 阻止 内 部 主机 对 恶意 URL 的 访问 。 垃 圾 邮件 的 彻底 检查 ,对 可 疑 邮件 中 的 URL 链接 和 
附件 应 该 做 细致 认真 的 检测 。 有 些 附件 表面 上 看 起 来 就 是 一 个 普通 的 数据 文件 ,如 PDF 或 
Excel 格式 的 文档 等 。 恶 意 程序 嵌入 到 文件 中 , 且 利用 的 漏洞 是 未 经 公开 的 。 通 常 仅 通过 
特征 扫描 的 方式 往往 不 能 准确 识别 出 来 。 比 较 有 效 的 方法 是 用 沙 箱 模拟 真实 环境 访问 邮件 
中 的 URL 或 打开 附件 ,观察 沙 箱 主机 的 行为 变化 ,可 以 有 效 检测 出 恶意 程序 。 

(2) 全 面 采集 行为 记录 ,避免 内 部 监控 盲点 。 

对 IT 系统 行为 记录 的 收集 是 异常 行为 检测 的 基础 和 前 提 。 大 部 分 IT 系统 行为 可 以 
分 为 主机 行为 和 网 络 行为 两 个 方面 。 更 全 面 的 行为 采集 还 包括 物理 访问 行为 记录 采集 。 

D 主机 行为 采集 。 

主机 行为 采集 一 般 是 通过 允许 在 主机 上 的 行为 监控 程序 完成 。 有 些 行为 记录 可 以 通过 
操作 系统 自 带 的 日 志 功能 实现 自动 输出 。 为 了 实现 对 进程 行为 的 监控 ,行为 监控 程序 通常 
工作 在 操作 系统 的 驱动 层 , 如 果 在 实现 上 有 错误 ,很 容易 引起 系统 崩溃 。 为 了 避免 被 恶意 程 
序 探测 到 监控 程序 的 存在 ,行为 监控 程序 应 尽量 工作 在 驱动 层 的 底部 ,但 是 越 靠 近 底 部 , 稳 
定性 风险 就 越 高 。 

@ 网 络 行为 采集 。 

网 络 行为 采集 一 般 是 通过 镜像 网 络 流量 ,将 流量 数据 转换 成 流量 日 志 。 以 Netflow id 
录 为 代表 的 早期 流量 日 志 只 包含 网 络 层 信息 。 近 年 来 的 异常 行为 大 都 集中 在 应 用 层 , 仅 凭 
网 络 层 的 信息 已 难以 分 析出 有 价值 的 信息 。 应 用 层 流 量 日 志 的 输出 ,关键 在 于 应 用 的 分 类 
和 建 模 。 

(3) IT 系统 异常 行为 检测 。 

从 前 述 APT 攻击 过 程 可 以 看 出 .异常 行为 包括 对 内 部 网 络 的 扫描 探测 、 内 部 的 非 授 权 
访问 、 非 法 外 联 。 非 法 外 联 即 目标 主机 与 外 网 的 通信 行为 ,可 分 为 以 下 三 类 : 

© 下 载 恶意 程序 到 目标 主机 ,这些 下 载 行为 不 仅 在 感染 初期 发 生 ,在 后 续 恶 意 程序 升 
级 时 还 会 出 现 。 

© 目标 主机 与 外 网 的 C&C 服务 器 进行 联络 。 

© 内 部 主机 向 C&C 服务 器 传送 数据 ,其 中 外 传 数据 的 行为 是 最 多 样 . 最 隐蔽 也 是 最 终 
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构成 实质 性 危害 的 行为 。 


18.2 大 数据 安全 保障 实践 


在 大 数据 的 整个 处 理 流 程 中 ,数据 都 会 面临 着 各 种 各 样 的 安全 风险 。 

O 在 数据 采集 阶段 ,系统 可 能 会 将 用 户 的 关键 隐私 数据 采集 并 流转 至 系统 的 非 信任 区 
域 ,并 因此 失去 对 这 些 关 键 数据 的 控制 ,导致 用 户 隐私 数据 泄露 等 安全 风险 。 
加 在 数据 存储 阶段 ,由 于 用 户 的 所 有 关键 数据 都 是 明文 存储 ,因此 很 可 能 存在 数据 被 
盗用 、 滥 用 情况 ,导致 用 户 的 隐私 信息 泄露 。 
© 在 数据 挖掘 阶段 ,对 用 户 数据 分 析 结 果 使 用 的 不 可 控 性 ,在 数据 挖掘 分 析 中 会 存在 
数据 非 授权 访问 ,并 且 在 挖掘 算法 升级 时 ,系统 的 操作 维护 动作 还 可 能 会 将 原始 数据 或 加 工 
数据 直接 丢弃 ,造成 关键 数据 流失 。 

@ 在 数据 应 用 阶段 ,广告 投放 过 程 和 计 费 信任 程度 不 可 控 。 

@ 数据 交付 过 程 中 会 存在 不 合 规 的 数据 挖掘 结果 发 布 ,以 及 数据 泄露 后 无 法 追溯 取证 
等 问题 。 

因此 ,从 数据 生命 周期 或 者 业务 流程 角度 考虑 问题 ,针对 大 数据 安全 保障 的 解决 方案 应 
该 从 数据 处 理 的 各 个 环节 入 手 。 在 采集 阶段 对 数据 进行 分 类 分 级 管理 ; 在 数据 存储 阶段 对 
敏感 数据 进行 特殊 保护 与 脱 敏 处 理 ,并 对 数据 使 用 人 员 进 行 细 粒 度 的 授权 管理 与 访问 控制 ; 
在 数据 挖掘 与 应 用 阶段 对 数据 的 使 用 行为 进行 审计 与 溯源 。 

多 个 企业 推出 大 数据 安全 防护 解决 方案 ,尝试 在 大 数据 处 理 的 各 个 环节 中 对 大 数据 的 
采集 存储、 挖掘 和 应 用 进行 管控 ,全 方位 保护 大 数据 安全 。 图 18-2 所 示 是 某 大 数据 运营 企 
业 采 用 的 大 数据 架构 。 
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图 18-2 大 数据 安全 防护 框架 





首先 ,在 数据 输入 层 对 源 数 据 进行 分 类 ,使 用 户 的 关键 隐私 数据 可 以 与 其 他 非 敏感 数据 
进行 区 分 。 
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其 次 ,在 数据 处 理 层 设立 数据 安全 网 关 , 旨 在 对 数据 敏感 度 、 广 告 投放 等 方面 进行 安全 
管理 ,使 得 处 理 后 的 数据 在 对 外 提供 前 得 到 相应 的 安全 处 理 。 

同时 ,该 企业 还 为 其 大 数据 应 用 系统 加 载 了 维护 平台 ,为 平台 进行 操作 维护 、 加 密 算 法 
升级 .行为 审计 等 安全 防护 。 

通过 上 述 对 数据 应 用 各 个 环节 的 安全 措施 ,该 企业 的 大 数据 应 用 平台 可 安全 地 对 外 提 
供 数 据 服务 。 


18.2.1 大 数据 采集 与 存储 的 安全 防护 


由 于 大 数据 具有 数量 大 、 数 据 类 型 复杂 等 特点 ,因此 在 大 数据 的 全 处 理 流程 初期 ,在 采 
集 与 存储 阶段 对 源 数据 进行 相应 的 安全 处 理 是 保障 大 数据 安全 的 关键 。 许 多 企业 也 看 重大 
数据 的 这 一 特点 ,对 数据 的 安全 采集 与 存储 进行 了 相应 研究 ,分 别 推出 了 相应 的 安全 方案 与 
产品 。 图 18-3 所 示 是 某 企 业 的 安全 数据 应 用 处 理 流 程 模型 。 





Web 服 务 器 
— 一 一 一 
抽取 、 转 换 抽取 = 
Fie a sie m ZN 
裁剪 、 验 证 存储 
数据 脱 敏 规则 


图 18-3 数据 脱 敏 过 程 


该 方案 在 原始 数据 采集 后 即 对 其 进行 了 脱 敏 预 处 理 ,而 将 脱 敏 后 的 数据 分 别 存储 ,统一 
进行 数据 挖掘 ,最 后 进行 数据 交付 。 这 样 ,大 数据 在 存储 前 就 在 一 定 程度 上 减轻 了 敏感 数据 
泄露 的 风险 。 

而 在 数据 存储 阶段 ,如 何 对 数据 库 进 行 更 好 的 加 密 , 使 大 数据 的 存储 变 得 更 加 安全 则 是 
大 数据 处 理 全 流程 中 的 基础 。 图 18-4 所 示 是 数据 库 透 明 加 解密 系统 。 

整个 数据 的 访问 过 程 可 以 分 为 以 下 几 个 步骤 : 

(1) 客户 端 发 起 到 数据 库 安全 访问 代理 的 连接 请 求 。 

(2) 服务 器 接受 客户 端的 连接 请 求 并 分 配 连接 资源 ,并 接受 客户 端的 服务 请 求 。 

(3) 服务 器 对 请 求 参数 进行 解析 ,然后 调用 元 数据 访问 模块 ,如 果 访 问 操作 中 没有 涉及 
加 密 字 段 , 则 直接 返回 并 调用 数据 库 安全 访问 模块 ; 如 果 有 加 密 字 段 , 则 将 加 密 字典 定义 信 
息 返回 并 存放 入 服务 器 端的 加 密 字 典 缓冲 区 中 , 以便 提高 重复 查询 的 速度 ,然后 调用 数据 库 
安全 访问 模块 。 

(4) 加 解密 引擎 访问 加 密 字 和 典 定义 缓冲 区 及 密 钥 库 , 结 合 数据 库 访问 请 求 进行 相应 的 
加 解密 处 理 , 并 解析 成 能 够 对 数据 库 中 密 文 进行 查询 的 SQL 语句 ,然后 调用 数据 库 安全 访 
问 代 理 模 块 。 

(5) 数据 库 安全 访问 模块 接受 待 处 理 请 求 ,进行 相应 操作 ,将 第 一 次 查询 得 到 的 模糊 结 
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图 18-4 数据 库 透 明 加 解密 


果 经 过 结果 集 过 滤 模 块 进 一 步 处 理 , 最 后 将 匹配 的 结果 返回 数据 库 解 密 引 擎 进行 处 理 并 


返回 。 


(6) 返回 结果 通过 密 文 传输 到 达 客 户 端 安全 代理 并 进行 相应 的 解密 处 理 , 最 终 以 明文 





形式 返回 给 客户 端 。 
18.2.2 大 数据 挖掘 与 应 用 的 安全 防护 


大 数据 的 重要 价值 之 一 是 帮助 已 有 业务 增加 用 户 触 点 ,并 进行 多 场景 交叉 营销 ,特别 是 





对 异 网 营销 有 明显 的 推动 作用 。 但 是 ,大 数据 使 用 不 当 会 导致 用 





户 投诉 ,引起 法 律 纠纷 , 严 


重 影响 企业 的 品牌 形象 ,从 而 使 业务 发 展 和 市 场 营销 工作 陷入 困境 。 安 全 先行 ,数据 安全 是 
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发 展 任何 信息 服务 业务 的 基础 ,而 一 些 企业 也 将 防护 大 数据 安全 的 重点 放 在 挖掘 与 应 用 
阶段 。 

将 用 户 的 数据 进行 挖掘 并 分 为 两 个 安全 域 : 数据 信任 域 与 因特网 非 信 任 域 。 通 过 对 源 
数据 的 挖掘 ,该 系统 将 用 户 的 源 数据 细 分 为 用 户 号 码 、 用 户 终端 \ 用 户 位 置 、 用 户 应 用 、 用 户 
访问 行为 及 用 户 属性 几 大 方面 。 这 些 经 挖掘 处 理 、 分 类 后 的 源 数据 将 被 保存 在 系统 的 数据 
信任 域内 ,进行 全 面 的 安全 防护 。 在 安全 网 关 处 理 后 ,将 这 些 挖掘 数据 再 进行 封装 处 理 , 去 
除 用 户 的 敏感 信息 ,将 数据 投放 至 因特网 等 非 信任 域 。 经 过 两 层 挖掘 处 理 , 投 放 至 因特网 的 
大 数据 既 可 为 用 户 提供 个 性 化 的 数据 应 用 ,也 防止 了 数据 应 用 阶段 的 信息 泄露 问题 。 


18.2.3 大 数据 安全 审计 


上 述 两 节 描 述 的 安全 实践 属于 在 大 数据 处 理 流程 中 对 各 个 环节 的 处 理 技术 本 身 进 行 改 
造 , 从 而 达到 数据 应 用 流程 的 安全 处 理 。 而 有 些 企 业 则 将 大 数据 安全 防护 的 重点 放 在 了 人 
员 管理 上 ,此 处 的 ”人员 管 理 " 是 指 对 大 数据 系统 中 的 各 类 行为 的 监控 ,如 对 数据 库 的 访问 记 
录 进 行 监控 ,再 对 这 些 行为 进行 审计 ,分 析出 是 否 在 系统 中 存在 着 违规 访问 行为 ,最 后 再 通 
过 溯源 技术 对 该 违规 访问 进行 追溯 ,达到 了 在 后 台 对 大 数据 进行 安全 防护 , 即 达到 了 对 大 数 
据 的 安全 审计 与 溯源 。 

在 大 数据 的 审计 阶段 ,各 企业 开展 安全 防护 的 研究 。 图 18-5 所 示 是 某 企 业 的 数据 使 用 
行为 审计 方案 。 
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图 18-5 数据 使 用 行为 审计 


上 述 方 案 将 侧重 点 放 在 大 数据 的 后 期 处 理 阶段 。 首 先 通过 对 数据 库 访问 网 络 包 、 访 问 
控制 网 关 日 志 、 挖 掘 系 统 运行 ,发 布 日 志 等 系统 信息 的 监控 ,对 数据 访问 行为 .挖掘 行为 、 数 
据 发 布 行为 进行 审计 ,再 对 违规 操作 进行 溯源 ,最 后 将 各 个 违规 事件 进行 透明 化 输出 ,防范 
了 系统 中 的 管理 员 、 处 理 人 员 对 大 数据 的 泄露 风险 。 
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18.2.4 大 数据 安全 评估 与 安全 管理 


保障 大 数据 安全 ,不 仅 需 要 安全 技术 ,还 需要 专业 的 安全 管理 ,因此 建立 针对 大 数据 特 
点 的 安全 管理 .安全 评估 模型 也 是 安全 防护 的 重点 工作 。 

在 开展 大 数据 运营 工作 之 前 , 某 企 业 从 业主 调研 .同行 调研 .学 界 调研 三 个 层面 对 数据 
应 用 中 的 安全 与 隐私 难题 进行 研究 。 

(1) 从 业主 调研 结果 来 看 , 低 于 半数 的 被 访 因 特 网 商 宣 称 有 相应 的 内 部 制度 进行 管控 ， 
并 且 大 多 并 未 能 在 技术 和 行政 管理 层面 有 效 执行 。 值 得 关注 的 是 ,很 少 有 企业 单独 为 应 用 
数据 建立 专门 的 管控 制度 ,更 多 的 企业 认为 数据 的 有 效 变现 更 为 关键 , 即 业务 效率 高 于 安全 
性 诉求 ,将 数据 安全 风险 视 为 业务 成 本 ,同时 绝 大 部 分 数据 的 处 理 和 挖掘 由 内 部 团队 执行 。 
被 访 因 特 网 商 原则 上 多 认可 数据 模糊 化 、 数 据 分 区 化 、 数 据 访问 控制 .数据 层次 化 等 大 方向 。 
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全 性 问题 。 因 此 ,该 企业 建议 将 业务 发 展 和 安全 保护 结合 考虑 。 先 根据 特定 的 业务 需求 量 
身 订 做 数据 产品 ,避免 过 早 对 外 开放 全 部 数据 ,而 是 围绕 受 控 的 有 限度 数据 来 做 业务 发 展 ， 
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18.2.5 数据 中 心 的 安全 保障 


对 大 数据 的 保护 ,首先 是 要 保护 大 数据 基础 设施 的 安全 , 即 在 物理 层面 (如 服务 器 、 网 络 
等 ) 保 证 大 数据 的 安全 。 

大 数据 时 代 对 数据 中 心 的 安全 保障 提出 了 新 的 需求 ,具体 包括 以 下 几 个 方面 : 

CL) 大 数据 时 代 的 数据 中 心安 全 防护 产品 要 有 更 快 的 反应 速度 与 更 高 性 能 的 处 理 能 
力 。 一 方面 ,由 于 数据 中 心 的 发 展 规模 越 来 越 大 .业务 种 类 越 来 越 多 ,数据 中 心 内 保存 的 数 
据 价值 也 越 来 越 高 , 随 之 而 来 的 针对 大 数据 的 各 类 型 攻击 也 正在 快速 发 展 ,攻击 呈现 持续 
性 、 高 流量 、 异 变性 等 特点 ,要 防护 针对 大 数据 的 高 级 攻击 ,必然 需要 安全 防护 产品 拥有 更 强 
的 处 理性 能 ; 另 一 方面 , 随 着 数据 中 心 的 网 络 发 展 ,数据 流量 日 益 加 大 , 低 性 能 的 数据 中 心 
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网 络 防护 技术 也 将 制约 数据 中 心 的 升级 与 更 新 。 

(2) 大 数据 时 代 的 数据 中 心安 全 防护 产品 需要 有 更 快速 的 升级 能 力 。 由 于 信息 安全 威 
胁 的 快速 变化 ,针对 大 数据 的 攻击 随时 可 能 出 现 新 的 类 型 ,这 要 求 安全 防护 技术 有 更 积极 的 
升级 策略 ,安全 厂商 要 对 大 数据 威胁 更 加 敏感 。 

(3) 大 数据 时 代 的 数据 中 心安 全 防护 产品 要 能 够 感知 不 同 的 应 用 类 型 ,在 网 络 需 要 时 
可 以 对 不 同 的 应 用 给 予 不 同 的 带宽 保障 ,提升 高 价值 业务 的 用 户 体 验 ,同时 也 可 以 缓和 数据 
中 心 对 外 带宽 的 压力 ,提升 了 整体 用 户 体验 。 

为 了 满足 以 上 安全 需求 ,国内 各 大 企业 都 针对 他 们 的 数据 中 心 提出 了 新 的 安全 防护 解 

决 方案 。 
将 数据 中 心 分 成 对 外 连接 区 域 及 内 部 核心 区 域 。 对 外 连接 区 域 为 用 户 提 供 Web 访问 
接 入 服务 ,该 区 域 的 服务 器 作为 用 户 业 务 中 心 ,为 租户 和 Web 服务 提供 业务 支持 ; 而 内 部 
核心 区 聚集 了 企业 内 部 大 量 生产 .办 公 服 务 器 ,地 理 上 一 般 集 中 部 署 在 企业 总 部 数据 中 心机 
房 , 安 全 需求 更 高 。 

1. 外 部 连接 区 的 安全 防护 

在 数据 中 心 的 外 部 连接 区 内 ,服务 器 的 主要 作用 是 为 用 户 提供 业务 服务 。 如 作为 云 平 
台 的 数据 中 心 , 外 部 连接 区 的 服务 器 主要 为 租户 提供 虚拟 机 及 部 署 PaaS 应 用 ,而 这 些 业 务 
通常 需要 接 入 Internet 服务 。 

因此 ,该 方案 首先 在 外 部 连接 区 的 出 口 部 署 了 高 性 能 的 防火 墙 ,有 效 地 为 用 户 提供 高 安 
全 的 、 高 密度 对 外 网 络 接 入 服务 。 而 防火 墙 不 仅 部 署 在 整个 数据 中 心 的 出 口 ,同时 也 部 署 在 
连接 外 部 连接 区 与 内 部 核心 区 的 核心 交换 机 处 。 这 样 ,数据 中 心 内 部 有 效 地 实现 了 安全 域 
隔离 ,真正 地 实现 了 内 外 两 个 区 域 的 划分 ,对 两 个 区 域 间 的 流量 进行 安全 防护 ,保障 了 网 络 
安全 。 

同时 ,该 方案 还 在 外 部 连接 区 部 署 了 多 套 安 全 应 用 系统 及 安全 防护 策略 ,配合 基础 的 防 
火 墙 ,为 数据 中 心 的 外 部 连接 区 提供 了 更 全 面 的 安全 防护 。 

C1) 通过 配置 USG( 统 一 网 关 ) 设 备 , 可 以 实现 对 网 络 源 地 址 进行 屏蔽 的 策略 。 

(2) 部 署 虚拟 防火 墙 ,实现 了 虚拟 机 间 的 安全 隔离 ,防止 互 攻击 的 发 生 , 同 时 还 可 针对 
虚拟 防火 墙 进 行 配置 资源 预 分 配 , 控 制 虚拟 防火 墙 的 进出 流量 。 

G) 通过 配置 简单 的 公 网 IP 限 流 策略 ,可 以 有 效 防止 某 个 分 给 用 户 的 公 网 IP 占用 过 
量 带宽 ,同时 也 防止 了 海量 数据 泄露 的 风险 。 

(4) 部 署 IPS 入 侵 防御 系统 ,能 够 监视 网 络 或 网 络 设备 的 网 络 资料 传输 行为 ,能 够 及 时 
地 中 断 .调整 或 隔离 一 些 不 正常 或 具有 伤害 性 的 网 络 资料 传输 行为 。 

(5) 针对 外 部 连接 区 内 的 某 些 关键 业务 系统 ,该 方案 还 在 其 入 口交 换 机 旁 路 部 署 NIP 
系统 ,该 系统 可 以 实现 对 访问 系统 的 网 络 流量 进行 实时 检测 ,对 该 系统 内 的 数据 进行 访问 控 
制 及 安全 审计 。 

(6) 在 出 口 部 署 Anti-DDoS 设备 ,可 以 有 效 识别 DDoS 攻击 ,减少 恶意 流量 的 冲击 , 实 
现 对 DDoS 的 攻击 防护 。 

2. 内 部 核心 区 的 安全 防护 

与 外 部 连接 区 的 防护 方案 类 似 ,内 部 核心 区 首先 通过 在 核心 交换 机 上 部 署 各 类 安全 设 
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网 络 防护 技术 也 将 制约 数据 中 心 的 升级 与 更 新 。 
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通常 需要 接 入 Internet 服务 。 
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(2) 部 署 虚拟 防火 墙 ,实现 了 虚拟 机 间 的 安全 隔离 ,防止 互 攻击 的 发 生 , 同 时 还 可 针对 
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G) 通过 配置 简单 的 公 网 IP 限 流 策略 ,可 以 有 效 防止 某 个 分 给 用 户 的 公 网 IP 占用 过 
量 带宽 ,同时 也 防止 了 海量 数据 泄露 的 风险 。 
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地 中 断 .调整 或 隔离 一 些 不 正常 或 具有 伤害 性 的 网 络 资料 传输 行为 。 
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备 , 如 防火 墙 .IPS/IDS 系统 等 为 数据 中 心 的 核心 业务 提供 内 部 网 络 安 全 防护 。 

同样 地 ,在 内 部 核心 区 部 署 USG 设备 ,可 将 核心 区 按照 业务 模式 划分 为 不 同 的 区 域 ， 
如 测试 区 ,托管 区 、 运 行 管理 区 等 ,对 不 同 的 区 域 实现 不 同 的 安全 策略 ,为 不 同 的 区 域 提供 不 
同 的 安全 防护 能 力 , 同 时 USG 可 以 支持 多 实例 解决 方案 ,如 将 一 台 防火 墙 从 人 逻辑 上 划分 为 
多 台 虚 拟 防 火 墙 ,为 多 用 户 提 供 独 立 的 安全 保障 。 

另外 ,在 核心 区 部 署 的 IPS. Bi DDoS 设备 可 以 实现 对 来 自 企 业内 部 的 攻击 行为 的 监 
控 ,检测 异常 的 数据 流量 ,同时 在 业务 服务 器 群 前 防御 DDoS 攻击 及 各 种 黑客 攻击 行为 和 里 
虫 等 ,以 保护 企业 内 部 核心 业务 区 域 的 安全 。 


18.3 本章 小 结 

















本 章 介 绍 了 保障 大 数据 安全 的 相关 技术 和 相关 实践 。 大 数据 安全 的 关键 技术 主要 阅 述 
了 非 关系 数据 库 安全 策略 ,防范 APT 攻击 等 相关 内 容 ; 大 数据 安全 保障 实践 主要 阐述 了 大 
数据 的 整个 处 理 流程 中 大 数据 采集 与 存储 的 安全 防护 ,大 数据 挖掘 与 应 用 的 安全 防护 ,大 数 
据 安 全 审计 ,大 数据 安全 评估 与 安全 管理 ,数据 中 心 的 安全 保障 等 方面 的 内 容 。 
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在 大 数据 云 时 代 , 人 们 的 关注 点 逐渐 从 如 何 掌握 庞大 的 数据 信息 转向 如 何 实现 对 这 些 
数据 的 深层 挖掘 ,进而 让 其 增值 。 通 过 大 量 信息 的 整合 与 海量 数据 的 分 析 , 企 业 能 够 更 深入 
地 了 解 自身 业务 ,实现 新 需求 洞察 ,更 好 地 做 出 商业 决策 。 

信息 安全 是 为 信息 化 服务 的 ,而 信息 化 又 服务 于 业务 增长 。 因 此 ,利用 大 数据 提升 企业 
信息 安全 防护 水 平 .能 够 间接 地 为 企业 带 来 效益 。Gartner 报告 指出 ,大 数据 在 信息 安全 领 
域 的 应 用 将 演化 为 IT 商业 智能 发 展 趋势 的 一 部 分 , 即 安 全 数据 和 业务 数据 的 结合 能 够 为 
企业 提供 更 可 靠 的 策略 依据 ,帮助 企业 判断 各 种 潜在 威胁 ,预测 业务 发 展 趋势 。 


19.1 大 数据 安全 检测 及 应 用 


19.1.1 安全 检测 与 大 数据 的 融合 


安全 检测 与 大 数据 的 融合 能 够 及 时 发 现 潜在 的 威胁 ,提供 安全 分 析 与 趋势 预测 ,加 强 应 
对 威胁 的 能 力 。 首 先 对 数据 进行 分 类 .过 滤 与 筛选 ,其 次 采用 信息 安全 检测 技术 对 系统 环境 
和 数据 环境 进行 检测 ,然后 通过 关联 分 析 和 数据 挖掘 构建 安全 威胁 模型 ,经 过 数据 分 析 预 测 
安全 趋势 。 

随 着 因特网 用 户 和 移动 宽带 用 户 的 迅速 增长 ,网络 犯罪 也 越 来 越 多 ,给 用 户 带 来 巨大 的 
损失 。 根 据 国际 电信 联盟 的 数据 统计 ,每 天 新 增 恶 意 软件 20 000 个 ,网 络 犯罪 的 受害 者 人 
数 达 到 5. 56 亿 , 直 接 造成 的 净 损 失 达 1100 亿 。 

安全 威胁 与 风险 主要 表现 在 以 下 几 个 方面 : 

(1) 恶意 数据 混杂 在 正常 数据 中 。 

(2) 恶意 软件 的 制造 趋向 于 专业 化 。 
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(3) 逃避 检测 的 方法 越 来 越 多 。 

(4) 恶意 软件 生存 期 短 。 

在 大 数据 时 代 , 可 以 将 安全 检测 与 大 数据 技术 进行 融合 ,发 现 潜在 的 恶意 软件 等 安全 威 
胁 与 风险 ,帮助 用 户 减 少 损失 。 安 全 检测 与 大 数据 技术 融合 架构 ,可 以 高 效 地 进行 Web 检 
i Web 防护 、Web 管理 .APT 预警 .其 他 扩展 等 安全 监控 ,如 图 19-1 所 示 。 安 全 检测 的 主 
要 流程 包括 如 下 三 个 方面 : 







大 数据 分 析 中 心 
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图 19-1 大 数据 安全 检测 


(1) 数据 收集 。 从 网 络 中 收集 可 执行 文件 、 图 片 、 压 缩 包 、 页 面 、 流 量 等 海量 数据 。 

(2) 数据 提炼 。 对 海量 数据 进行 分 类 ,并 进行 关联 分 析 , 采 用 挖掘 算 法 对 数据 进行 
挖掘。 

(3) 安全 检测 。 建 立 安全 分 析 目 标 及 模型 ,对 数据 挖掘 结果 进行 评估 ,发 现 网 络 中 的 安 
全 态势 。 

在 对 PB 级 数据 进行 提炼 的 过 程 中 ,可 从 多 个 维度 对 数据 进行 分 类 。 从 数据 内 容 的 维 
度 来 分 ,包括 网 络 购 物 、 金 融 理 财 、 兑 技 体育 等 ; 从 功能 的 维度 来 分 ,包括 BBS/ 论 坛 等 交互 
性 站 点 、 门 户 、 搜 索 、Mail、 代 理 服 务 器 等 ;从 平台 的 维度 来 分 ,包括 操作 系统 和 平台 软件 等 。 
在 数据 提炼 的 过 程 中 ,还 需要 对 数据 的 生命 周期 进行 评估 ,包括 安全 检测 的 历史 结果 数据 和 
当前 的 检测 结果 数据 。 

在 对 数据 进行 关联 分 析 的 时 候 , 可 能 需要 对 数 亿 的 事件 进行 关联 检测 ,例如 可 从 时 间 、 
地 点 ,流量 大 小 ,邮箱 、 域 名 IP 等 维度 进行 关联 分 析 。 

在 大 数据 时 代 , 安 全 分 析 模 式 发 生 了 变化 :海量 的 待 分 析 数据 与 相对 有 限 的 分 析 能 力 之 
间 发 生 矛 盾 。 采 用 非 关 系 型 数据 库 和 Hadoop 的 相关 技术 可 解决 此 矛盾 。 

大 数据 在 带 来 更 多 安全 问题 的 同时 ,也 为 我 们 提供 了 更 丰富 的 安全 视角 。 从 单个 样本 
分 析 到 多 个 样本 关联 分 析 再 到 海量 挖掘 ,并 结合 数据 的 上 下 文 , 可 以 从 网 络 中 挖掘 出 更 多 的 
安全 威胁 与 风险 。 


19.1.2 用 户 上 网 流量 数据 的 挖掘 与 分 析 


大 数据 时 代 , 运 营 商 采用 大 数据 技术 采集 和 存储 用 户 的 流量 ,为 客服 人 员 和 移动 用 户 提 
供 流量 查询 和 流量 告警 等 服务 。 并 结合 用 户 的 其 他 数据 ,挖掘 用 户 的 使 用 行为 ,分 析出 用 户 
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的 行为 特征 和 兴趣 取向 等 ,为 用 户 提供 个 性 化 业务 推荐 ,可 为 运营 商 带 来 增值 业务 收入 的 
增长 。 

1. 流量 详 单 查询 

伴随 着 智能 手机 的 普及 ,移动 用 户 利用 手机 上 网 和 社交 越 来 越 频繁 。 简 单 地 访问 一 个 
新 浪 首页 就 会 产生 20 多 条 记录 ,这 样 每 天 会 产生 大 量 的 数据 ,每 月 的 上 网 记录 数 更 达到 万 
亿 条 。 为 了 满足 查询 和 分 析 要 求 ,需要 存储 3 一 6 个 月 的 历史 数据 ,存储 容量 超过 PB 量 级 ， 
并 且 移动 因特网 用 户 访问 流量 在 快速 增长 (大 约 每 半年 翻 一 番 ) 。 在 对 如 此 大 量 的 数据 进行 
查询 和 分 析 操 作 时 , 系统 性 能 会 严重 下 降 。 为 了 满足 上 述 需求 , 某 运 营 商 采用 基于 
Hadoop/ HBase 的 分 布 式 架构 ,为 移动 用 户 提供 上 网 记录 查询 和 分 析 服 务 , 为 移动 用 户 的 流 
量 消费 提供 清单 ,为 用 户 流量 争议 和 投诉 提供 了 解决 手段 ,有 效 提升 了 公司 服务 水 平 ,减少 
了 退 费 和 赔付 ,为 用 户 行为 分 析 和 个 性 化 业务 推荐 提供 基础 信息 。 

2. 用 户 行为 分 析 

用 户 行为 分 析 在 流量 经 营 中 起 着 重要 的 作用 ,主要 表现 在 以 下 两 个 方面 : 

(1) 用 户 行为 结合 用 户 Profile、 产 品 、 服 务 、 计 费 、 财 务 等 信息 进行 综合 分 析 , 得 出 细 粒 
度 、 精 确 的 结果 ,实现 用 户 个 性 化 的 策略 控制 。 

(2) 对 信息 流 内 容 进 行 分 析 , 比 如 图 片 、 电 影 、 网 页 等 ,深入 理解 用 户 的 行为 特征 。 

目前 ,流量 经 营 分 析 中 的 瓶颈 主要 是 数据 的 采集 和 处 理 。 比 如 , 某 运 营 商 省 公司 建立 了 
营销 门户 系统 ,该 系统 为 省 公司 提供 精确 化 管理 和 个 性 化 营销 ,实现 对 营销 活动 的 日 报 统计 
等 支撑 ,打造 适用 于 全 省 各 级 营销 管理 人 员 ,一线 经 理 及 支撑 人 员 的 营销 支撑 门户 ,并 提供 
与 营销 活动 相关 的 日 报 和 月 报 统计 ,包括 量 收 、 欠 费 、 用 户 发 展 、 预 警 信息 、 机 构 汇 总 等 内 容 。 
目前 每 月 新 增 数据 量 达 到 AT ,传统 方式 分 析 结 果 超 过 20h, 数 据 处 理 效率 低 且 系统 扩展 困 
难 。 采 用 云 计算 架 构 、 并 行 分 布 式 处 理 等 技术 后 ,报表 分 析 只 需要 1h, 满 足 了 报表 对 时 限 的 
要 求 ,系统 扩展 性 好 ,可 用 性 高 。 

3. 个 性 化 推荐 

在 各 类 增值 业务 中 ,公司 可 根据 用 户 喜好 推荐 各 类 业务 或 应 用 ,比如 应 用 商店 软件 推 
H IPTV 视频 节目 推荐 等 。 这 类 应 用 需要 处 理 的 数据 量 大 ,实时 性 要 求 高 ,并 且 涉 及 大 的 
非 结构 化 数据 及 智能 分 析 ,而 大 数据 技术 成 为 系统 实现 中 关键 的 技术 。 以 IPTV 节目 推荐 
为 例 , 不 仅 需要 分 析 用 户 已 有 日 志 、` 评 论 . 打 分 等 数据 ,还 需要 从 因特网 通过 网 络 怜 虫 分 析 获 
得 相关 视频 和 评论 进行 综合 分 析 。 可 以 采用 的 相关 技术 包括 并 行 计 算 框 架 ` 分 布 式 文件 系 
统 及 文本 分 类 / 聚 类 /关联 算法 文本 摘要 抽取 、 情 感 分 析 和 文本 语义 分 析 \ 文 本 挖掘 等 智能 
分 析 算 法 。 


19.2 安全 大 数据 


安全 大 数据 是 指 与 业务 安全 、 系 统 安全 、 网 络 安 全 硬件 安全 有 关 的 配置 数据 、 实 时 数 
据 、 衍 生 数据 等 ,可 归 类 为 资产 数据 、 威 胁 数 据 、 脆 弱 性 数据 和 网 络 结构 数据 。 利 用 数据 挖掘 
相关 技术 能 够 从 这 些 大 量 的 、 不 完全 的 、 有 噪声 的 .模糊 的 .随机 的 实际 数据 中 提取 出 隐 含 在 
其 中 能 够 标识 业务 、 系 统 、 网 络 安 全 的 潜在 信息 。 
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的 行为 特征 和 兴趣 取向 等 ,为 用 户 提供 个 性 化 业务 推荐 ,可 为 运营 商 带 来 增值 业务 收入 的 
增长 。 

1. 流量 详 单 查询 

伴随 着 智能 手机 的 普及 ,移动 用 户 利用 手机 上 网 和 社交 越 来 越 频繁 。 简 单 地 访问 一 个 
新 浪 首页 就 会 产生 20 多 条 记录 ,这 样 每 天 会 产生 大 量 的 数据 ,每 月 的 上 网 记录 数 更 达到 万 
亿 条 。 为 了 满足 查询 和 分 析 要 求 ,需要 存储 3 一 6 个 月 的 历史 数据 ,存储 容量 超过 PB 量 级 ， 
并 且 移动 因特网 用 户 访问 流量 在 快速 增长 (大 约 每 半年 翻 一 番 ) 。 在 对 如 此 大 量 的 数据 进行 
查询 和 分 析 操 作 时 , 系统 性 能 会 严重 下 降 。 为 了 满足 上 述 需求 , 某 运 营 商 采用 基于 
Hadoop/ HBase 的 分 布 式 架构 ,为 移动 用 户 提供 上 网 记录 查询 和 分 析 服 务 , 为 移动 用 户 的 流 
量 消费 提供 清单 ,为 用 户 流量 争议 和 投诉 提供 了 解决 手段 ,有 效 提升 了 公司 服务 水 平 ,减少 
了 退 费 和 赔付 ,为 用 户 行为 分 析 和 个 性 化 业务 推荐 提供 基础 信息 。 

2. 用 户 行为 分 析 

用 户 行为 分 析 在 流量 经 营 中 起 着 重要 的 作用 ,主要 表现 在 以 下 两 个 方面 : 

(1) 用 户 行为 结合 用 户 Profile、 产 品 、 服 务 、 计 费 、 财 务 等 信息 进行 综合 分 析 , 得 出 细 粒 
度 、 精 确 的 结果 ,实现 用 户 个 性 化 的 策略 控制 。 

(2) 对 信息 流 内 容 进 行 分 析 , 比 如 图 片 、 电 影 、 网 页 等 ,深入 理解 用 户 的 行为 特征 。 

目前 ,流量 经 营 分 析 中 的 瓶颈 主要 是 数据 的 采集 和 处 理 。 比 如 , 某 运 营 商 省 公司 建立 了 
营销 门户 系统 ,该 系统 为 省 公司 提供 精确 化 管理 和 个 性 化 营销 ,实现 对 营销 活动 的 日 报 统计 
等 支撑 ,打造 适用 于 全 省 各 级 营销 管理 人 员 ,一线 经 理 及 支撑 人 员 的 营销 支撑 门户 ,并 提供 
与 营销 活动 相关 的 日 报 和 月 报 统计 ,包括 量 收 、 欠 费 、 用 户 发 展 、 预 警 信息 、 机 构 汇 总 等 内 容 。 
目前 每 月 新 增 数据 量 达 到 AT ,传统 方式 分 析 结 果 超 过 20h, 数 据 处 理 效率 低 且 系统 扩展 困 
难 。 采 用 云 计算 架 构 、 并 行 分 布 式 处 理 等 技术 后 ,报表 分 析 只 需要 1h, 满 足 了 报表 对 时 限 的 
要 求 ,系统 扩展 性 好 ,可 用 性 高 。 

3. 个 性 化 推荐 

在 各 类 增值 业务 中 ,公司 可 根据 用 户 喜好 推荐 各 类 业务 或 应 用 ,比如 应 用 商店 软件 推 
H IPTV 视频 节目 推荐 等 。 这 类 应 用 需要 处 理 的 数据 量 大 ,实时 性 要 求 高 ,并 且 涉 及 大 的 
非 结构 化 数据 及 智能 分 析 ,而 大 数据 技术 成 为 系统 实现 中 关键 的 技术 。 以 IPTV 节目 推荐 
为 例 , 不 仅 需要 分 析 用 户 已 有 日 志 、` 评 论 . 打 分 等 数据 ,还 需要 从 因特网 通过 网 络 怜 虫 分 析 获 
得 相关 视频 和 评论 进行 综合 分 析 。 可 以 采用 的 相关 技术 包括 并 行 计 算 框 架 ` 分 布 式 文件 系 
统 及 文本 分 类 / 聚 类 /关联 算法 文本 摘要 抽取 、 情 感 分 析 和 文本 语义 分 析 \ 文 本 挖掘 等 智能 
分 析 算 法 。 


19.2 安全 大 数据 


安全 大 数据 是 指 与 业务 安全 、 系 统 安全 、 网 络 安 全 硬件 安全 有 关 的 配置 数据 、 实 时 数 
据 、 衍 生 数据 等 ,可 归 类 为 资产 数据 、 威 胁 数 据 、 脆 弱 性 数据 和 网 络 结构 数据 。 利 用 数据 挖掘 
相关 技术 能 够 从 这 些 大 量 的 、 不 完全 的 、 有 噪声 的 .模糊 的 .随机 的 实际 数据 中 提取 出 隐 含 在 
其 中 能 够 标识 业务 、 系 统 、 网 络 安 全 的 潜在 信息 。 
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在 企业 的 实际 生产 中 ,业务 安全 往往 是 指 保护 业务 系统 免 受 安全 威胁 的 措施 或 手段 。 
广义 的 业务 安全 应 包括 业务 运行 的 软 硬 件 平台 .业务 系统 自身 .业务 所 提供 的 服务 安全 ; W 
义 的 业务 安全 是 指 业务 系统 自 有 的 软件 与 服务 的 安全 。 表 征 业 务 安全 的 信息 主要 有 经 营 数 
据 、 分 析 数 据 、 监 控 数 据 、 报 表 数 据 等 。 

系统 安全 是 指 在 系统 生命 周期 内 应 用 系统 安全 工程 和 系统 安全 管理 方法 ,辨识 系统 中 
的 危险 源 ,并 采取 有 效 的 控制 措施 使 其 危险 性 最 小 ,从 而 使 系统 在 规定 的 性 能 .时 间 和 成 本 
范围 内 达到 最 佳 的 安全 程度 。 系 统 安全 的 基本 原则 是 在 一 个 新 系统 的 构思 阶段 就 必须 考虑 
其 安全 性 问题 ,制定 并 执行 安全 工作 规划 ,并 且 把 安全 活动 贯穿 于 整个 系统 生命 周期 ,直到 
系统 报废 为 止 。 表 征 系统 安全 的 信息 主要 包括 系统 运行 参数 ,硬件 使 用 率 、 软 件 使 用 率 \ 功 
能 使 用 情况 、 数 据 输出 情况 ,接口 数据 、 监 测 数据 等 。 


19.2.1 数据 挖掘 方法 


数据 挖掘 是 把 人 们 对 数据 的 应 用 从 低层 次 的 简单 查询 提升 到 从 数据 中 挖掘 知识 , 提供 
决策 支持 。 数 据 挖掘 通过 分 析 每 个 数据 ,从 大 量 数据 中 寻找 其 规律 的 技术 ,主要 有 数据 准 
备 、 规 律 寻 找 和 规律 表示 三 个 步骤 。 数 据 准备 是 从 相关 的 数据 源 中 选取 所 需 的 数据 并 整合 
成 用 于 数据 挖掘 的 数据 集 ; 规律 寻找 是 用 某 种 方法 把 数据 集 所 含 的 规律 找 出 来 ; 规律 表示 
是 尽 可 能 以 用 户 可 理解 的 方式 (如 可 视 化 ) 将 找 出 的 规律 表示 出 来 。 

数据 挖掘 的 任务 有 关联 分 析 、 聚 类 分 析 、 分 类 分 析 、 异 常 分 析 .特异 群 组 分 析 和 演变 分 析 
等 。 数 据 挖 掘 采 用 较 多 的 技术 有 决策 树 、 分 类 、 聚 类 .粗糙 集 . 回 归 分 析 、. 关 联 规 则 、 特 征 分 
析 、 神 经 网 络 .遗传 算法 等 ,从 不 同 的 角度 进行 数据 挖掘 。 数 据 挖掘 根据 挖掘 目标 选取 相应 
算法 的 参数 ,分 析 数 据 , 得 到 可 能 的 数据 模型 。 

(1) 决策 树 学 习 是 一 种 通过 和 逼 近 离 散 值 目标 函数 的 方法 ,通过 把 实例 从 根 节点 排列 到 
某 个 叶子 节点 来 分 类 实例 ,叶子 节点 即 为 实例 所 属 的 分 类 。 树 上 的 每 个 节点 说 明了 对 实例 
的 某 个 属性 的 测试 ,该 节点 的 每 一 个 后 继 分 支 对 应 于 该 属性 的 一 个 可 能 值 ,分 类 实例 的 方法 
是 从 树 的 根 节点 开始 ,测试 这 个 节点 指定 的 属性 ,然后 按照 给 定 实例 的 属性 值 向 下 移动 。 决 
策 树 方法 主要 用 于 数据 挖掘 的 分 类 方面 。 

(2) 分 类 是 找 出 数据 库 中 一 组 数据 对 象 的 共同 特点 并 按照 分 类 模式 将 其 划分 为 不 同 的 
类 ,其 目的 是 通过 分 类 模型 将 数据 库 中 的 数据 项 映射 到 某 个 给 定 的 类 别 , 它 可 以 应 用 到 客户 
的 分 类 、 客 户 的 属性 和 特征 分 析 、 客 户 满意 度 分 析 、 客 户 的 购买 趋势 预测 等 。 

G) 聚 类 分 析 是 把 一 组 数据 按照 相似 性 和 差异 性 分 为 几 个 类 别 ,其 目的 是 使 属于 同一 
类 别 数据 间 的 相似 性 尽 可 能 大 ,不 同类 别 数据 间 的 相似 性 尽 可 能 小 。 聚 类 分 析 的 技术 关键 
除了 算法 的 选择 之 外 ,就 是 对 样本 度量 标准 的 选择 。 并 非 由 聚 类 分 析 算 法 得 到 的 类 对 决策 
都 有 效 ,在 运用 某 一 个 算法 之 前 ,一 般 要 先 对 数据 的 聚 类 趋势 进行 检验 。 

(4) 粗糙 集 是 将 数据 库 中 的 属性 分 为 条 件 属性 和 结论 属性 ,对 数据 库 中 的 元 组 根据 各 
个 属性 不 同 的 值 分 成 相应 的 子 集 ,然后 确定 条 件 属性 划分 的 子 集 与 结论 之 间 上 下 近似 关系 ， 
生成 判定 规则 。 粗 糙 集 理论 可 以 应 用 于 数据 挖掘 中 的 分 类 ,发 现 不 准确 数据 或 噪声 数据 内 
在 的 结构 联系 。 

(5) 回归 分 析 方法 反映 的 是 事务 数据 库 中 属性 值 在 时 间 上 的 特征 ,产生 一 个 将 数据 项 
映射 到 实 值 预测 变量 的 函数 ,发 现 变量 或 属性 间 的 依赖 关系 。 其 主要 研究 问题 包括 数据 序 
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列 的 趋势 特征 、 数 据 序列 的 预测 及 数据 间 的 相互 关系 等 。 

(6) 关联 规则 是 描述 数据 库 中 数据 项 之 间 所 存在 关系 的 规则 , 即 根据 一 个 事务 中 某 些 
项 的 出 现 可 导出 另 一 些 项 在 同一 事务 中 也 出 现 , 即 隐藏 在 数据 间 的 关联 或 相互 关系 。 

(7) 特征 分 析 是 从 数据 库 的 一 组 数据 中 提取 出 关于 这 些 数 据 的 特征 式 , 这 些 特征 式 表 
达 了 该 数据 集 的 总 体 特征 。 

(8) 神经 网 络 建立 在 自学 习 的 数学 模型 基础 之 上 ,能 够 对 大 量 复杂 的 数据 进行 分 析 , 并 
可 以 完成 对 人 脑 或 其 他 计算 机 来 说 极为 复杂 的 模式 抽取 及 趋势 分 析 , 神 经 网 络 既 可 以 表现 
为 指导 的 学 习 , 也 可 以 是 无 指导 聚 类 ,无 论 哪 种 ,输入 到 神经 网 络 中 的 值 都 是 数值 型 的 。 

(9) 遗传 算法 是 一 种 受 生物 进化 启发 的 学 习 方法 ,通过 变异 和 重组 当前 已 知 的 最 好 假 
设 来 生成 后 续 的 假设 。 通 过 使 用 目前 适 性 最 高 的 后 代替 代 群 体 的 某 个 部 分 ,更 新 当前 群体 的 
一 组 假设 来 实现 各 个 体 适应 性 的 提高 。 在 数据 挖掘 中 ,可 以 被 用 作 评 估 其 他 算法 的 适合 

目前 ,数据 挖掘 技术 取得 了 显著 成 效 ,但 仍 存在 着 许多 尚未 解决 的 问题 ,例如 数据 的 预 
处 理 、 挖 掘 算法 、 模 式 识别 和 解释 可视化 问题 等 。 对 于 业务 过 程 而 言 ,数据 挖掘 最 关键 的 问题 
是 如 何 结合 业务 数据 时 空 特点 ,将 挖掘 出 的 知识 表达 出 来 ,即时 空 知识 表达 和 解释 机 制 问题 。 


19.2.2 挖掘 目标 及 评估 


对 安全 大 数据 的 挖掘 可 以 表征 企业 现状 、 预 测 未 来 趋势 及 行为 ,做 出 基于 知识 的 决策 。 
挖掘 的 目标 是 从 数据 中 发 现 隐 含 的 有 意义 的 信息 。 其 中 ,数据 关联 是 数据 挖掘 要 发 现 与 利 
用 的 一 类 重要 知识 。 关 联 关系 可 分 为 简单 关联 、 时 序 关 联 、 因 果 关 联 , 其 目的 是 找 出 海量 数 
据 中 隐藏 的 关联 关系 。 

在 安全 数据 的 挖掘 中 ,利用 概念 描述 可 以 对 某 类 对 象 的 内 涵 进 行 描述 ,并 概括 这 类 对 象 
的 有 关 特 征 。 概 念 描述 分 为 特征 性 描述 和 区 别 性 描述 ,前 者 描述 某 类 对 象 的 共同 特征 ,后 者 
描述 不 同类 对 象 之 间 的 区 别 。 生 成 一 个 类 的 特征 性 描述 只 涉及 该 类 对 象 中 所 有 对 象 的 共 
性 。 生 成 区 别 性 描述 的 方法 很 多 ,如 决策 树 方法 、 遗 传 算法 等 。 

针对 大 数据 中 的 异常 记录 ,可 以 利用 数据 挖掘 技术 检测 出 来 。 其 偏差 包括 很 多 潜在 的 
知识 ,例如 分 类 中 的 反常 实例 ,不 满足 规则 的 特例 和 观测 结果 。 数 据 挖掘 与 传统 数据 分 析 的 
本 质 区 别 是 ,数据 挖掘 是 在 没有 明确 假设 的 前 提 下 去 挖 气 信息、 发 现 知识 。 

使 用 数据 挖掘 算法 得 出 结果 之 后 ,系统 如 何 知道 哪些 规则 对 于 用 户 来 说 有 价值 。 实 际 
操作 中 ,可 以 从 两 个 层面 进行 评测 : 用 户主 观 层 面 评测 和 系统 客观 层面 评测 。 前 者 评估 一 
个 模式 (知识 ) 是 否 有 意义 ,通常 依据 4 个 标准 : 用 户 易 理 解 , 对 新 数据 或 测试 数据 能 够 确定 
有 效 程度 ,具有 潜在 价值 ,新 奇 的 。 后 者 基于 挖掘 出 模式 的 结构 或 统计 特征 ,提取 一 些 有 意 
义 的 模式 或 知识 。 


19.3 基于 大 数据 的 网 络 态势 感知 


19.3.1 态势 感知 定义 
态势 感知 的 概念 源 于 军事 需求 ,作为 数据 融合 的 一 个 组 成 部 分 ,态势 感知 是 决策 制定 过 
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列 的 趋势 特征 、 数 据 序列 的 预测 及 数据 间 的 相互 关系 等 。 

(6) 关联 规则 是 描述 数据 库 中 数据 项 之 间 所 存在 关系 的 规则 , 即 根据 一 个 事务 中 某 些 
项 的 出 现 可 导出 另 一 些 项 在 同一 事务 中 也 出 现 , 即 隐藏 在 数据 间 的 关联 或 相互 关系 。 

(7) 特征 分 析 是 从 数据 库 的 一 组 数据 中 提取 出 关于 这 些 数 据 的 特征 式 , 这 些 特征 式 表 
达 了 该 数据 集 的 总 体 特征 。 

(8) 神经 网 络 建立 在 自学 习 的 数学 模型 基础 之 上 ,能 够 对 大 量 复杂 的 数据 进行 分 析 , 并 
可 以 完成 对 人 脑 或 其 他 计算 机 来 说 极为 复杂 的 模式 抽取 及 趋势 分 析 , 神 经 网 络 既 可 以 表现 
为 指导 的 学 习 , 也 可 以 是 无 指导 聚 类 ,无 论 哪 种 ,输入 到 神经 网 络 中 的 值 都 是 数值 型 的 。 

(9) 遗传 算法 是 一 种 受 生物 进化 启发 的 学 习 方法 ,通过 变异 和 重组 当前 已 知 的 最 好 假 
设 来 生成 后 续 的 假设 。 通 过 使 用 目前 适 性 最 高 的 后 代替 代 群 体 的 某 个 部 分 ,更 新 当前 群体 的 
一 组 假设 来 实现 各 个 体 适应 性 的 提高 。 在 数据 挖掘 中 ,可 以 被 用 作 评 估 其 他 算法 的 适合 

目前 ,数据 挖掘 技术 取得 了 显著 成 效 ,但 仍 存在 着 许多 尚未 解决 的 问题 ,例如 数据 的 预 
处 理 、 挖 掘 算法 、 模 式 识别 和 解释 可视化 问题 等 。 对 于 业务 过 程 而 言 ,数据 挖掘 最 关键 的 问题 
是 如 何 结合 业务 数据 时 空 特点 ,将 挖掘 出 的 知识 表达 出 来 ,即时 空 知识 表达 和 解释 机 制 问题 。 


19.2.2 挖掘 目标 及 评估 


对 安全 大 数据 的 挖掘 可 以 表征 企业 现状 、 预 测 未 来 趋势 及 行为 ,做 出 基于 知识 的 决策 。 
挖掘 的 目标 是 从 数据 中 发 现 隐 含 的 有 意义 的 信息 。 其 中 ,数据 关联 是 数据 挖掘 要 发 现 与 利 
用 的 一 类 重要 知识 。 关 联 关系 可 分 为 简单 关联 、 时 序 关 联 、 因 果 关 联 , 其 目的 是 找 出 海量 数 
据 中 隐藏 的 关联 关系 。 

在 安全 数据 的 挖掘 中 ,利用 概念 描述 可 以 对 某 类 对 象 的 内 涵 进 行 描述 ,并 概括 这 类 对 象 
的 有 关 特 征 。 概 念 描述 分 为 特征 性 描述 和 区 别 性 描述 ,前 者 描述 某 类 对 象 的 共同 特征 ,后 者 
描述 不 同类 对 象 之 间 的 区 别 。 生 成 一 个 类 的 特征 性 描述 只 涉及 该 类 对 象 中 所 有 对 象 的 共 
性 。 生 成 区 别 性 描述 的 方法 很 多 ,如 决策 树 方法 、 遗 传 算法 等 。 

针对 大 数据 中 的 异常 记录 ,可 以 利用 数据 挖掘 技术 检测 出 来 。 其 偏差 包括 很 多 潜在 的 
知识 ,例如 分 类 中 的 反常 实例 ,不 满足 规则 的 特例 和 观测 结果 。 数 据 挖掘 与 传统 数据 分 析 的 
本 质 区 别 是 ,数据 挖掘 是 在 没有 明确 假设 的 前 提 下 去 挖 气 信息、 发 现 知识 。 

使 用 数据 挖掘 算法 得 出 结果 之 后 ,系统 如 何 知道 哪些 规则 对 于 用 户 来 说 有 价值 。 实 际 
操作 中 ,可 以 从 两 个 层面 进行 评测 : 用 户主 观 层 面 评测 和 系统 客观 层面 评测 。 前 者 评估 一 
个 模式 (知识 ) 是 否 有 意义 ,通常 依据 4 个 标准 : 用 户 易 理 解 , 对 新 数据 或 测试 数据 能 够 确定 
有 效 程度 ,具有 潜在 价值 ,新 奇 的 。 后 者 基于 挖掘 出 模式 的 结构 或 统计 特征 ,提取 一 些 有 意 
义 的 模式 或 知识 。 


19.3 基于 大 数据 的 网 络 态势 感知 


19.3.1 态势 感知 定义 
态势 感知 的 概念 源 于 军事 需求 ,作为 数据 融合 的 一 个 组 成 部 分 ,态势 感知 是 决策 制定 过 
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程 的 重要 环节 。 态 势 感知 之 所 以 越 来 越 成 为 一 项 热门 研究 课题 ,是 因为 在 动态 复杂 的 环境 
中 ,决策 者 需要 借助 态势 感知 工具 显示 当前 环境 的 连续 变化 状况 ,才能 准确 地 做 出 决策 。 目 
前 ,不 同 组 织 从 不 同 角 度 给 出 了 不 同 的 定义 ,罗列 如 下 ,以 便 读者 了 解 与 认 知 。 

LWiKipedia] 态 势 感 知 就 是 在 一 定 的 时 空 条 件 下 ,对 环境 因素 进行 获取 、 理 解 及 对 其 未 
来 状态 进行 预测 。 

[百度 百科 ] 态 势 感知 是 指 在 大 规模 系统 环境 中 ,对 能 够 引起 系统 态势 发 生变 化 的 安全 
要 素 进行 获取 、 理 解 .显示 及 预测 未 来 的 发 展 趋势 。 

[Adam,1993] 态 势 感知 可 简单 理解 为 "了 解 将 要 发 生 的 事 以 便 做 好 准备 ”。 

[LMoray,2005] 态 势 感 知 可 简单 描述 为 “始终 掌握 你 周边 复杂 动态 环境 的 变化 ”。 

[Jay Bayne,2006] 态 势 评估 就 是 为 实现 态势 感知 而 采用 的 方法 及 其 相关 的 行为 过 程 。 


19.3.2 网 络 态势 感知 


网 络 态势 感知 (Cyberspace Situation Awareness) 源 于 空中 交通 监管 态势 感知 这 一 项 
目 。1999 年 ,Tim Bass 首次 提出 "网 络 态势 感知 "这 个 概念 ,并 对 网 络 态势 感知 与 ATC 态 
势 感知 进行 了 类 比 , 旨 在 把 ATC 态势 感知 的 成 熟 理论 和 技术 借鉴 到 网 络 态势 感知 中 。 此 
外 ,Tim Bass 也 指出 “基于 融合 的 网 络 态势 感知 ” 必 将 成 为 网 络 管理 的 发 展 方向 。 

所 谓 网 络 态势 是 指 由 各 种 网 络 设备 运行 状况 、 网 络 行为 及 用 户 行为 等 因素 所 构成 的 整 
个 网 络 当 前 状态 和 变化 趋势 。 其 中 ,态势 是 一 种 状态 ,一 种 趋势 ,是 一 个 整体 和 全 局 的 概 
念 ,任何 单一 的 情况 或 状态 都 不 能 称 为 态势 。 虽 然 网 络 态势 根据 不 同 的 应 用 领域 可 分 为 
安全 态势 .拓扑 态势 和 传输 态势 等 ,但 目前 关于 网 络 态势 的 研究 都 是 围绕 网 络 的 安全 态 
势 展开 的 。 

目前 ,对 网 络 态势 感知 还 未 能 给 出 统一 、 全 面 的 定义 。 但 是 ,大 多 数学 者 认为 网 络 态势 
感知 是 指 在 大 规模 网 络 环境 中 ,对 能 够 引起 网 络 态势 发 生变 化 的 安全 要 素 进行 获取 理解 、 
显示 及 预测 未 来 的 发 展 趋势 。 网 络 态势 感知 是 一 个 完整 而 复杂 的 体系 ,因此 可 以 将 其 分 为 
三 个 阶段 进行 研究 , 即 网 络 安全 态势 觉察 .网络 安 全 态势 理解 和 网 络 安全 态势 预测 。 通 过 定 
性 或 定量 的 网 络 安 全 态势 评价 体系 对 底层 各 类 安全 事件 进行 归并 、 关 联 和 整合 处 理 , 并 将 获 
取 的 态势 感知 结果 以 可 视 化 图 形 提供 给 网 络 管理 人 员 。 

网 络 态势 感知 可 以 综合 分 析 网 络 的 安全 要 素 , 评 估 网 络 的 安全 状况 ,预测 其 变化 趋势 ， 
以 可 视 化 的 方式 展现 给 用 户 。 网 络 态势 感知 的 概念 框架 如 图 19-2 所 示 ,该 框架 包括 要 素 信 
息 采 集 、 事 件 预 处 理 、 事 件 归 一 化 、 态 势 评估 、 业 务 评估 、 响 应 与 预警 .态势 可 视 化 及 过 程 优化 
控制 与 管理 等 多 个 部 分 。 

网 络 态势 感知 最 大 的 特点 是 不 再 孤立 地 研究 网 络 安全 事件 ,不 是 单一 评估 事件 对 网 络 
的 影响 ,而 是 综合 多 方 的 报警 与 流量 信息 ,通过 聚合 .关联 .融合 .归并 等 方法 建立 定性 或 定 
量 描述 的 指标 体系 ,达到 准确 感知 网 络 安全 态势 的 目的 。 


19.3.3 基于 流量 数据 的 网 络 安全 感知 


由 于 网 络 技术 的 迅速 发 展 .网 络 传输 速率 大 大 加 快 ,入 侵 检 测 系统 (IDS) 对 攻击 活动 检 
测 的 可 靠 性 不 高 。 在 应 对 外 部 攻击 时 ,IDS 对 其 他 传输 的 检测 也 会 被 抑制 。 同 时 ,由 于 模式 
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图 19-2 网 络 态势 感知 


识别 技术 的 不 完善 ,IDS 的 高 虚假 报警 率 也 是 一 大 问题 。 因 此 ,IDS 目前 多 部 署 于 中 小 规模 
的 分 支 网 络 中 。 目 前 ,监控 带宽 主干 网 往往 采用 网 络 流量 分 析 技术 ,以 发 现 流量 的 变化 趋势 
和 突变 。 网 络 流量 突变 是 指 网 络 业 务 流 量 突然 出 现 不 正常 的 重大 变化 ,及 时 发 现 网 络 流量 
的 突变 对 于 快速 定位 异常 .采取 后 续 相 应 措施 具有 重要 意义 。 主 干 网 络 反 映 的 大 规模 网 络 
状态 和 趋势 也 需要 从 流量 中 分 析 ,因而 这 是 网 络 态势 感知 的 重要 组 成 部 分 。 

目前 的 网 络 流量 研究 基本 都 是 基于 流量 采样 的 分 析 , 主流 采样 方式 是 NetFlow。 该 技 
术 是 由 Cisco 公司 的 Darren Kerr 和 Barry Bruins 在 1996 年 开发 完成 的 ,已 成 为 业界 主流 
的 流量 计 费 方法 。NetFlow 工作 时 ,通过 交换 设备 采集 所 有 经 过 的 流 数据 ,并 将 其 存放 到 自 
身 的 缓存 中 ,然后 按 预 设 的 格式 发 送 给 指定 的 服务 器 。 流 缓存 技术 相 比 传统 的 流量 采集 模 
式 有 分 组 丢失 率 低 的 特点 ,保证 了 能 够 提供 比 传统 SNMP 更 加 丰富 的 流量 信息 ,可 以 回答 
更 精细 的 问题 。 因 此 ,NetFlow 被 广泛 用 于 高 端 网 络 流量 测量 技术 的 支撑 ,以 提供 网 络 监 
控 、 流 量 分 析 、 应 用 业务 定位 、 网 络 规划 、 快 速 排 错 、 安 全 分 析 、 域 间 记 账 等 高 级 分 析 功 能 。 

在 获得 网 络 数据 之 后 ,由 于 网 络 数据 的 体 量 巨大 内容 复 杂 , 网 络 管理 人 员 从 原始 数据 
中 很 难得 到 有 用 的 信息 。 这 些 网 络 流量 数据 必须 经 过 分 析 形 成 简明 的 、 能 够 理解 的 网 络 状 
态 , 即 通过 网 络 流量 判断 网 络 的 状态 正常 与 否 , 异 常情 况 在 什么 时 间 和 位 置 发 生 。 目 前 ,对 
网 络 造成 重大 影响 的 异常 流量 主要 有 以 下 几 种 : 

(1) 拒绝 服务 /分 布 式 拒绝 服务 攻击 。 

DDoS 是 指 借助 于 客户 端 /服务 器 技术 ,将 多 个 计算 机 联合 起 来 作为 攻击 平台 ,对 一 个 
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或 多 个 目标 发 动 DoS 攻击 ,从 而 成 倍 地 提高 拒绝 服务 攻击 的 威力 。 这 种 攻击 行为 可 以 协调 

台 计 算 机 上 的 进程 ,利用 合理 的 服务 请 求 来 占用 过 多 的 服务 资源 ,从 而 使 合法 用 户 无 法 得 
到 服务 器 的 响应 。 在 这 种 情况 下 会 有 一 股 拒绝 服务 洪流 冲击 网 络 , 使 被 攻击 目标 因 过 载 而 
HR 

C2) 网 络 蠕虫 病毒 流量 。 

网 络 蠕虫 病毒 是 指 包 含 的 程序 或 一 套 程 序 , 能 传播 它 自身 功能 的 备份 或 它 的 某 些 部 分 
到 其 他 的 计算 机 系统 中 ,其 传播 会 对 网 络 产 生 影响 。 近 年 来 ,Red Code, SQL Slammer, y} 
击 波 .振荡 波 等 病毒 的 相继 爆发 ,不 但 对 用 户主 机 造成 影响 ,而 且 对 网 络 的 正常 运行 也 构成 
危害 ,因为 这 些 病 毒 具 有 扫描 网 络 .主动 传播 病毒 的 能 力 , 会 大 量 占用 网 络 带宽 或 网 络 设备 
系统 资源 。 

(3) 其 他 异常 流量 。 

其 他 能 够 影响 网 络 正常 运行 的 流量 都 归 为 异常 流量 的 范畴 ,例如 一 些 网 络 扫描 工具 产 
生 的 大 量 TCP 连接 请 求 ,很 容易 使 一 个 性 能 不 高 的 网 络 设备 瘫痪 。 

针对 上 述 几 种 实际 应 用 中 的 流量 异常 ,其 检测 方法 主要 有 分 类 过 滤 、 统 计 分 析 、TOPN 
排序 、 模 式 匹配 等 方法 。 由 于 网 络 流量 本 身 具 有 突 发 性 和 快速 变化 的 特点 ,因此 在 实际 使 用 
时 需要 结合 网 络 拓扑 、 流 量 特点 .采集 协议 ,监控 目的 等 情况 ,适当 选择 相应 方法 。 

D 分 类 过 滤 。 网 络 流量 包含 非常 丰富 的 内 容 ,出 于 不 同 的 目的 ,一 般 会 按照 不 同 的 标 
准将 流量 分 类 ,并 过 滤 出 需要 的 部 分 重点 分 析 。 可 以 通过 灵活 的 多 层 逻 辑 分 析 功 能 将 关心 
的 流量 从 庞杂 的 流量 中 抽取 出 来 ,在 此 基础 上 再 进一步 分 析 。 

© 统计 分 析 。 在 分 类 的 基础 上 对 数据 流量 按照 设 定 的 标准 进行 统计 ,例如 求 和 ,、 求 差 、 
求 平均 数 等 。 历 史 数 据 可 以 用 于 对 不 同属 性 建立 正常 模型 ,常用 的 方法 包括 绝对 值 模型 移 
动 平均 模型 . 正 态 分 布 模型 等 。 这 些 模 型 设 定 不 同 的 上 下 限 , 超 过 限定 值 则 触发 报警 。 

© TOPN 排序 。 对 流量 速率 发包 速率 \、 流 速率 或 者 流量 、 发 包 数 、 流 数 进行 排序 。 如 
果 发 现 网 络 有 问题 , 则 排名 在 前 的 几 项 可 能 是 问题 所 在 。 

@ 模式 匹配 。 根 据 已 有 的 异常 数据 库 的 规则 对 特定 的 流 属性 进行 匹配 ,可 以 判断 发 生 
的 异常 类 型 。 常 见 的 模式 匹配 包括 特定 端口 匹配 、 保 留 IP 地 址 匹配 特定 IP 地 址 匹配 等 。 


19.3.4 基于 大 数据 分 析 的 网 络 优化 


在 大 数据 的 支撑 下 ,采用 智能 分 析 技 术 实现 网 络 管理 的 维护 优化 ,提升 网 络 维护 的 实时 
性 ,并 实现 事前 预防 。 

1. 利用 大 数据 查找 网 络 问题 

目前 网 络 问题 信息 主要 来 自 当 前 的 网 络 安全 管理 过 程 , 用 户 投诉 或 者 客户 端 / 服 务 器 感 
知 。 通 过 大 数据 技术 分 析 响 应 时 间 、 测 量 数据 分 组 丢失 率 和 延迟 的 网 络 性 能 等 态势 数据 ,可 
以 将 数 千 ( 或 数 百 万 ) 数 据 元 素 与 已 知 问题 点 相关 联 , 找 出 相关 性 ,然后 通过 大 数据 分 析 找 出 
网 络 问题 的 根本 原因 。 

利用 大 数据 解决 网 络 问题 的 另 一 种 策略 是 使 用 大 数据 得 出 正常 网 络 环境 的 基本 数据 ， 
能 知道 当 没有 任何 问题 时 网 络 的 情况 。 这 些 状 态 正常 的 网 络 数据 分 析 结果 能 帮助 管理 员 确 
定 什么 是 正常 网 络 行为 ,并 根据 收集 的 数据 来 量化 这 种 “正常 *。 然 后 ,基于 正常 网 络 数据 可 
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以 分 析 网 络 运营 中 可 能 出 现 网 络 问题 的 时 段 ,从 而 找 出 造成 这 种 状况 的 原因 。 
2. 利用 大 数据 分 析 修 复 网 络 问 题 
通过 大 数据 来 检查 资源 如 何 受 到 网 络 事件 、 应 用 或 服务 器 事件 或 者 用 户 流量 负载 的 变 
化 的 影响 。 当 这 些 方面 发 生 显著 变化 时 ,网 络 应 该 以 可 预见 的 方式 做 出 响应 。 例 如 ,应 用 流 
量 的 显著 变化 通常 会 导致 响应 时 间 的 明显 增加 及 数据 分 组 丢失 率 的 上 升 等 。 


19.3.5 网 络 安全 感知 应 用 实践 


随 着 大 数据 技术 的 成 熟 ,应 用 与 推广 ,网 络 安全 态势 感知 技术 有 了 新 的 发 展 方向 ,大 数 
据 技术 特有 的 海量 存储 、 并 行 计算 、 高 效 查 询 等 特点 为 大 规模 网 络 安全 态势 感知 的 关键 技术 
创造 了 突破 的 机 遇 。 

大 规模 网 络 所 引发 的 安全 保障 的 复杂 度 激增 ,主要 面临 的 问题 包括 安全 数据 量 巨大 
安全 事件 被 割裂 ,从 而 难以 感知 ; 安全 的 整体 状况 无 法 描述 等 。 基 于 大 数据 的 网 络 安全 感 
知 的 能 力 模 型 与 架构 如 图 19-3 所 示 。 
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19-3 ”基于 大 数据 网 络 安全 感知 能 力 模式 


网 络 安全 感知 能 力 具体 可 分 为 资产 感知 ,脆弱 性 感知 ,告警 事件 感知 和 异常 事件 感知 4 
个 方面 。 资 产 感知 是 指 自动 化 快速 发 现 和 收集 大 规模 网 络 资产 的 分 布 情况 、 更 新 情况 、 属 性 
等 信息 ; 脆弱 性 感知 则 包括 三 个 层面 的 脆弱 性 感知 能 力 : 不 可 见 、 可 见 、 可 利用 ; 安全 事件 
感知 是 指 能 够 确定 安全 事件 发 生 的 时 间 、 地 点 、 人 物 、 起 因 、 经 过 和 结果 ; 异常 行为 感知 是 指 
通过 异常 行为 判定 风险 ,以 弥补 对 不 可 见 脆弱 性 、 未 知 安全 事件 发 现 的 不 足 , 主 要 面向 的 是 
感知 未 知 的 攻击 。 

随 着 Hadoop, NoSQL 等 技术 的 兴起 ,大 数据 的 应 用 逐渐 增多 和 成 熟 ,而 大 数据 自身 拥 
有 Velocity 快速 处 理 、Volume 大 数据 量 存储 、Variety 支持 多 类 数据 格式 等 特性 。 大 数据 
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的 这 些 特 性 恰巧 可 以 用 于 大 规模 网 络 的 安全 感知 。 首先, 多 类 数据 格式 可 以 使 网 络 安全 感 
知 获取 更 多 类 型 的 日 志 数据 ,包括 网 络 与 安全 设备 的 日 志 、 网 络 运行 情况 信息 .业务 与 应 用 
的 日 志 记录 等 ; 其 次 ,大 数据 量 存储 与 快速 处 理 为 高 速 网 络 流量 的 深度 安全 分 析 提 供 了 技 
术 支 持 , 可 以 为 高 智能 模型 算法 提供 计算 资源 ; 最 后 ,在 异常 行为 的 识别 过 程 中 ,对 正常 业 
务 行为 与 异常 攻击 行为 之 间 进 行 离 群 度 分 析 , 大 数据 使 得 在 分 析 过 程 中 采用 更 小 的 匹配 颗 
粒 与 更 长 的 匹配 时 间 成 为 可 能 。 大 数据 的 出 现 扩展 了 计算 和 存储 资源 ,提供 了 基础 平台 和 
大 数据 量 处 理 的 技术 支撑 ,为 安全 态势 的 分 析 、 预 测 提供 了 良好 的 解决 方案 。 








19.4 视频 监控 数据 的 安全 应 用 


19.4.1 视频 监控 数据 的 处 理 需 求 


视频 监控 是 安全 防范 系统 的 重要 组 成 部 分 , 它 是 一 种 防范 能 力 较 强 的 综合 系统 。 视 频 
监控 以 其 直观 、 准 确 . 及 时 和 信息 内 容 丰 富 而 广泛 应 用 于 许多 场合 。 据 IMS Research 统计 ， 
2011 年 全 球 摄 像 头 的 出 货 量 达到 2646 万 台 。2011 年 一 天 产生 的 视频 监控 数据 超过 
1500PB ,而 累计 历史 数据 将 更 为 庞大 。 在 视频 监控 大 联网 及 高 清 化 推动 下 ,视频 监控 业务 
步 入 数据 洪水 时 代 不 可 避免 。 
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19.4.2 视频 监控 数据 挖掘 技术 


视频 数据 之 所 以 无 法 直接 使 用 ,是 因为 人 与 机 器 之 间 存 在 着 语义 鸿沟 , 即 计算 机 理解 的 
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层 视频 数据 到 高 层 语义 信息 之 间 的 映射 关系 ,由 于 这 种 映射 关系 比较 复杂 ,一 般 采 用 多 层次 
的 信息 提取 及 映射 技术 来 最 终 实 现 数据 挖掘 过 程 。 

根据 实际 应 用 需求 及 应 用 方式 的 不 同 , 可 以 将 视频 中 挖掘 的 信息 分 为 5 类 : 事件 语义 
信息 、 目 标 身份 信息 .目标 图 像 特征 信息 、 视 频 统计 信息 及 视频 质量 信息 。 

(1) 事件 语义 信息 是 指 从 视频 中 获取 的 可 用 语言 描述 的 事件 信息 ,如 有 人 间 入 区 域 .有 
人 奔跑 ,发生 群 聚 性 事件 等 。 这 类 信息 主要 以 报警 的 方式 实时 呈现 给 用 户 , 用 户 可 以 根据 这 
类 信息 实时 对 异常 事件 进行 判断 并 处 理 。 

(2) 目标 身份 信息 主要 是 指 人 员 身 份 及 车 辆 牌照 信息 ,用 户 以 报警 的 方式 或 者 检索 的 
方式 使 用 这 类 信息 ,例如 车 辆 黑 名 单 报警 或 者 嫌疑 人 照片 检索 。 

(3) 目标 图 像 特征 信息 是 指 可 描述 的 目标 图 像 特征 ,用 户 在 刑侦 工作 中 可 以 利用 这 类 
信息 在 海量 视频 数据 中 对 目标 进行 快速 定位 。 

(4) 视频 统计 信息 是 指 从 视频 中 获取 的 长 时 间 统 计数 据 ,例如 商场 的 客流 量 、 交 通 要 道 
的 车 流量 等 ,用 户 可 以 利用 这 类 信息 进行 管理 工作 的 优化 。 

(5) 视频 质量 信息 是 指 对 视频 质量 进行 诊断 ,获取 对 视频 质量 异常 进行 描述 的 信息 , 例 
如 视频 被 遮挡 .视频 失 焦 、 视 频 偏 色 等 ,可 利用 这 类 信息 进行 监控 系统 维护 。 

在 视频 数据 挖掘 过 程 中 ,从 底层 视频 数据 中 首先 提取 低层 图 像 特 征 信息 ,包括 图 像 纹 
理 \ 图 像 色 块 .运动 矢量 、 图 像 边 缘 、 灰 度 直方 图 等 信息 ,这 类 信息 无 法 为 人 们 所 直接 理解 , 它 
们 是 提取 元 语义 信息 的 基础 ; 然后 利用 目标 检测 、 目 标 跟踪 ,特征 比 对 等 手段 从 图 像 特征 中 
提取 元 语义 信息 ,包括 运动 目标 、 运 动 目标 轨迹 、 车 牌 图 片 .人 脸 图 片 等 ,这 类 信息 已 经 可 以 
为 人 们 所 理解 ,但 是 离 最 终 应 用 还 有 距离 ; 最 后 将 元 语义 信息 融合 为 高 层 的 语义 级 描述 信 
息 。 随 着 提取 信息 的 层次 升 高 ,其 包含 的 信息 量 逐 步 减少 ,其 信息 的 抽象 程度 越 高 ,也 更 接 
近 人 们 所 能 应 用 及 理解 的 范畴 。 

对 视频 监控 数据 的 挖掘 需要 进行 大 量 元 数据 的 记录 ,甚至 是 与 监控 目的 无 关 的 元 数据 ， 
同时 进行 多 维度 的 分 析 。 海 量 的 数据 汇集 存储 和 超大 规模 的 数据 处 理 , 还 需要 基于 位 置 和 
时 间 进 行 关联 性 分 析 整 合 。 如 何 从 海量 视频 数据 中 提取 到 有 用 信息 ,甚至 是 经 过 归纳 总 结 
的 知识 ,无 疑 是 各 个 行业 都 迫切 需要 解决 的 问题 。 但 是 视频 包含 了 非常 庞大 的 信息 量 , 不 同 
行业 客户 对 于 视频 信息 的 提取 及 使 用 方式 有 很 大 的 差异 性 。 这 就 要 求 监控 技术 的 供应 商 能 
够 针对 不 同行 业 客户 的 需求 提供 不 同 的 视频 数据 挖掘 解决 方案 。 目 前 ,主要 使 用 视频 浓缩 
与 检索 ,视频 图 像 信息 数据 库 等 技术 来 实现 数据 挖掘 。 

(1) 视频 浓缩 检索 技术 主要 是 利用 图 像 处 理 、 模 式 识别 ,海量 数据 分 类 存储 及 搜索 等 技 
术 对 海量 的 存储 录像 等 原始 信息 进行 分 析 和 挖掘 ,对 于 目标 特征 .目标 行为 .目标 间 关 联 关 
系 这 三 大 类 信息 内 容 形 成 各 种 分 类 的 特征 信息 库 、 元 数据 和 索引 等 ,并 提供 统一 接口 供 外 部 
应 用 进行 搜索 ,以 期 实现 快速 关联 和 定位 。 

(2) 视频 图 像 信息 库 建设 和 海量 数据 的 处 理 、 分 析 、 检 索 是 提高 效率 的 有 力 手段 。 通 过 
视频 智能 分 析 技术 ,把 海量 的 视频 数据 进行 浓缩 ,提取 特征 摘要 ,减少 了 存储 空间 。 同 时 , 视 
频 图 像 信息 库 有 别 于 传统 的 关系 数据 库 模型 ,针对 结构 化 、 半 结构 化 和 非 结 构 化 数据 ,通过 
数据 的 多 个 副本 分 布 式 保存 方式 ,可 以 有 效 节约 存储 空间 ,对 关键 数据 进行 二 次 备份 ,使 系 
统 架 构 更 加 稳定 和 可 扩展 .并 且 提供 安全 的 负载 均衡 和 容错 机 制 。 

无 论 采 用 何 种 视频 数据 挖掘 技术 ,其 实现 方式 通常 可 以 分 为 前 端 设备 实现 方式 和 后 端 





32 


D 


第 19 章 应 用 大 数据 保障 安全 Gà 


层 视频 数据 到 高 层 语义 信息 之 间 的 映射 关系 ,由 于 这 种 映射 关系 比较 复杂 ,一 般 采 用 多 层次 
的 信息 提取 及 映射 技术 来 最 终 实 现 数据 挖掘 过 程 。 

根据 实际 应 用 需求 及 应 用 方式 的 不 同 , 可 以 将 视频 中 挖掘 的 信息 分 为 5 类 : 事件 语义 
信息 、 目 标 身份 信息 .目标 图 像 特征 信息 、 视 频 统计 信息 及 视频 质量 信息 。 

(1) 事件 语义 信息 是 指 从 视频 中 获取 的 可 用 语言 描述 的 事件 信息 ,如 有 人 间 入 区 域 .有 
人 奔跑 ,发生 群 聚 性 事件 等 。 这 类 信息 主要 以 报警 的 方式 实时 呈现 给 用 户 , 用 户 可 以 根据 这 
类 信息 实时 对 异常 事件 进行 判断 并 处 理 。 

(2) 目标 身份 信息 主要 是 指 人 员 身 份 及 车 辆 牌照 信息 ,用 户 以 报警 的 方式 或 者 检索 的 
方式 使 用 这 类 信息 ,例如 车 辆 黑 名 单 报警 或 者 嫌疑 人 照片 检索 。 

(3) 目标 图 像 特征 信息 是 指 可 描述 的 目标 图 像 特征 ,用 户 在 刑侦 工作 中 可 以 利用 这 类 
信息 在 海量 视频 数据 中 对 目标 进行 快速 定位 。 

(4) 视频 统计 信息 是 指 从 视频 中 获取 的 长 时 间 统 计数 据 ,例如 商场 的 客流 量 、 交 通 要 道 
的 车 流量 等 ,用 户 可 以 利用 这 类 信息 进行 管理 工作 的 优化 。 

(5) 视频 质量 信息 是 指 对 视频 质量 进行 诊断 ,获取 对 视频 质量 异常 进行 描述 的 信息 , 例 
如 视频 被 遮挡 .视频 失 焦 、 视 频 偏 色 等 ,可 利用 这 类 信息 进行 监控 系统 维护 。 

在 视频 数据 挖掘 过 程 中 ,从 底层 视频 数据 中 首先 提取 低层 图 像 特 征 信息 ,包括 图 像 纹 
理 \ 图 像 色 块 .运动 矢量 、 图 像 边 缘 、 灰 度 直方 图 等 信息 ,这 类 信息 无 法 为 人 们 所 直接 理解 , 它 
们 是 提取 元 语义 信息 的 基础 ; 然后 利用 目标 检测 、 目 标 跟踪 ,特征 比 对 等 手段 从 图 像 特征 中 
提取 元 语义 信息 ,包括 运动 目标 、 运 动 目标 轨迹 、 车 牌 图 片 .人 脸 图 片 等 ,这 类 信息 已 经 可 以 
为 人 们 所 理解 ,但 是 离 最 终 应 用 还 有 距离 ; 最 后 将 元 语义 信息 融合 为 高 层 的 语义 级 描述 信 
息 。 随 着 提取 信息 的 层次 升 高 ,其 包含 的 信息 量 逐 步 减少 ,其 信息 的 抽象 程度 越 高 ,也 更 接 
近 人 们 所 能 应 用 及 理解 的 范畴 。 

对 视频 监控 数据 的 挖掘 需要 进行 大 量 元 数据 的 记录 ,甚至 是 与 监控 目的 无 关 的 元 数据 ， 
同时 进行 多 维度 的 分 析 。 海 量 的 数据 汇集 存储 和 超大 规模 的 数据 处 理 , 还 需要 基于 位 置 和 
时 间 进 行 关联 性 分 析 整 合 。 如 何 从 海量 视频 数据 中 提取 到 有 用 信息 ,甚至 是 经 过 归纳 总 结 
的 知识 ,无 疑 是 各 个 行业 都 迫切 需要 解决 的 问题 。 但 是 视频 包含 了 非常 庞大 的 信息 量 , 不 同 
行业 客户 对 于 视频 信息 的 提取 及 使 用 方式 有 很 大 的 差异 性 。 这 就 要 求 监控 技术 的 供应 商 能 
够 针对 不 同行 业 客户 的 需求 提供 不 同 的 视频 数据 挖掘 解决 方案 。 目 前 ,主要 使 用 视频 浓缩 
与 检索 ,视频 图 像 信息 数据 库 等 技术 来 实现 数据 挖掘 。 

(1) 视频 浓缩 检索 技术 主要 是 利用 图 像 处 理 、 模 式 识别 ,海量 数据 分 类 存储 及 搜索 等 技 
术 对 海量 的 存储 录像 等 原始 信息 进行 分 析 和 挖掘 ,对 于 目标 特征 .目标 行为 .目标 间 关 联 关 
系 这 三 大 类 信息 内 容 形 成 各 种 分 类 的 特征 信息 库 、 元 数据 和 索引 等 ,并 提供 统一 接口 供 外 部 
应 用 进行 搜索 ,以 期 实现 快速 关联 和 定位 。 

(2) 视频 图 像 信息 库 建设 和 海量 数据 的 处 理 、 分 析 、 检 索 是 提高 效率 的 有 力 手段 。 通 过 
视频 智能 分 析 技术 ,把 海量 的 视频 数据 进行 浓缩 ,提取 特征 摘要 ,减少 了 存储 空间 。 同 时 , 视 
频 图 像 信息 库 有 别 于 传统 的 关系 数据 库 模型 ,针对 结构 化 、 半 结构 化 和 非 结 构 化 数据 ,通过 
数据 的 多 个 副本 分 布 式 保存 方式 ,可 以 有 效 节约 存储 空间 ,对 关键 数据 进行 二 次 备份 ,使 系 
统 架 构 更 加 稳定 和 可 扩展 .并 且 提供 安全 的 负载 均衡 和 容错 机 制 。 

无 论 采 用 何 种 视频 数据 挖掘 技术 ,其 实现 方式 通常 可 以 分 为 前 端 设备 实现 方式 和 后 端 





32 


D 


大 数据 云 服务 技术 架构 与 实践 





设备 实现 方式 两 种 。 前 者 是 指 在 各 种 前 端 监控 设备 中 集成 智能 视频 分 析 技 术 , 以 实现 视频 
信息 的 实时 挖掘 ; 后 者 是 指 利用 后 端 服 务 器 集群 对 前 端 监 控 设 备 采 集 的 视频 信息 进行 数据 
挖 据 。 一 般 而 言 ,前 端 设备 实现 方式 的 优点 是 可 以 对 视频 数据 进行 实时 分 析 , 并 具有 根据 视 
频 分 析 算 法 的 需要 对 前 端 设 备 进行 成 像 控 制 的 能 力 ,对 信息 实时 性 或 者 视频 成 像 特 性 有 特 
定 要 求 的 数据 挖掘 技术 更 适合 用 前 端 设备 实现 方式 。 


19.4.3 海量 视频 监控 数据 的 分 析 与 处 理 


结合 视频 监控 业务 特点 ,引入 Hadoop 的 架构 ,以 顶层 设计 的 视角 来 构建 面向 大 数据 的 
视频 监控 架构 ,将 对 未 来 视频 监控 业务 的 规划 设计 产生 深远 的 影响 。 面 向 大 数据 视频 监控 
架构 如 图 19-4 所 示 。 
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图 19-4 面向 大 数据 视频 监控 架构 图 


基于 大 数据 的 智能 视频 监控 ,核心 就 是 将 采集 来 的 视频 数据 按 帧 提取 出 来 ,应 用 到 特征 
模型 中 进行 匹配 。 然 后 将 这 些 特征 全 部 存储 下 来 ,添加 标识 .索引 ,在 需要 的 时 候 再 进行 检 
索 , 或 进行 更 深层 次 的 分 析 。 在 这 个 过 程 中 ,需要 将 原始 视频 数据 很 快 转换 成 特征 模型 , 同 
时 也 需要 海量 存储 去 保存 这 部 分 视频 数据 。 技 术 的 核心 在 于 特征 模型 的 选取 、 转 换 的 算法 、 
海量 数据 的 实时 和 离线 分 析 能 力 。 特 征 模型 的 选取 可 以 通过 和 一 线 工 作 人 员 沟 通 把 模型 建 
立 起 来 ,也 可 以 寻求 一 些 模 型 库 。 

基于 大 数据 的 视频 架构 ,本 质 上 是 把 视频 数据 作为 最 有 价值 的 资产 ,以 数据 作为 核心 来 
构建 技术 架构 ,重点 解决 了 海量 的 视频 数据 分 散 和 集中 式 存 储 并 存 、 多 级 分 布 等 问题 , 极 大 
地 提升 了 非 结 构 化 视频 数据 读 写 的 效率 ,为 视频 监控 的 快速 检索 、 智 能 分 析 提供 了 端 到 端的 
解决 方案 。 

大 数据 视频 架构 是 革命 性 的 技术 ,特别 是 在 实时 智能 分 析 和 数据 挖掘 方面 ,让 视频 监控 
从 人 工 抽检 转变 到 高 效 事前 预警 和 事后 分 析 , 实 现 智 能 化 的 信息 分 析 和 预测 , 必 将 在 平安 城 
市 .智能 交通 、 视 频 监控 云 服务 等 业务 领域 带 来 深刻 的 变革 。 


19.5 本 章 小 结 


本 章 介 绍 了 应 用 大 数据 保障 安全 ,包括 大 数据 安全 检测 及 应 用 ,安全 大 数据 ,基于 大 数 
据 的 网 络 态势 感知 和 视频 监控 数据 的 安全 应 用 等 方面 内 容 。 
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安全 检测 与 大 数据 的 融合 能 够 及 时 发 现 潜在 的 威胁 ,提供 安全 分 析 与 趋势 预测 ,加 强 应 
对 威胁 的 能 力 。 其 需要 首先 对 数据 进行 分 类 、 过 滤 与 筛选 ,其 次 采用 信息 安全 检测 技术 对 系 
统 环境 和 数据 环境 进行 检测 ,然后 通过 关联 分 析 和 数据 挖掘 构建 安全 威胁 模型 ,经 过 数据 分 
析 预 测 安全 趋势 。 
安全 大 数据 是 指 与 业务 安全 .系统 安全 ,网 络 安全 ,硬件 安全 有 关 的 配置 数据 .实时 数 
据 、 衍 生 数 据 等 ,可 归 类 为 资产 数据 .威胁 数据 、 脆 弱 性 数据 和 网 络 结构 数据 。 利 用 数据 挖 气 
相关 技术 能 够 从 这 些 大 量 的 ,不 完全 的 \ 有 噪声 的 、 模 糊 的 ,随机 的 实际 数据 中 提取 出 隐 含 在 
其 中 能 够 标识 业务 、 系 统 、 网 络 安全 的 潜在 信息 。 
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